alibaba
diff --git a/‎.github/workflows/test_prompt.yml‎
Lines changed: 74 additions & 0 deletions b/‎.github/workflows/test_prompt.yml‎
Lines changed: 74 additions & 0 deletions
diff --git a/‎federatedscope/core/configs/cfg_data.py‎
Lines changed: 0 additions & 1 deletion b/‎federatedscope/core/configs/cfg_data.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎federatedscope/nlp/prompt_tuning/README.md‎
Lines changed: 5 additions & 3 deletions b/‎federatedscope/nlp/prompt_tuning/README.md‎
Lines changed: 5 additions & 3 deletions
diff --git a/‎federatedscope/nlp/prompt_tuning/baseline/config_init_kd_test.yaml‎
Lines changed: 23 additions & 0 deletions b/‎federatedscope/nlp/prompt_tuning/baseline/config_init_kd_test.yaml‎
Lines changed: 23 additions & 0 deletions
diff --git a/‎federatedscope/nlp/prompt_tuning/run_gpt_fedprompt.sh‎
Lines changed: 0 additions & 9 deletions b/‎federatedscope/nlp/prompt_tuning/run_gpt_fedprompt.sh‎
Lines changed: 0 additions & 9 deletions
diff --git a/‎federatedscope/nlp/prompt_tuning/run_gpt_fedprompt_lsr.sh‎
Lines changed: 1 addition & 10 deletions b/‎federatedscope/nlp/prompt_tuning/run_gpt_fedprompt_lsr.sh‎
Lines changed: 1 addition & 10 deletions
diff --git a/‎federatedscope/nlp/prompt_tuning/run_gpt_ours.sh‎
Lines changed: 0 additions & 9 deletions b/‎federatedscope/nlp/prompt_tuning/run_gpt_ours.sh‎
Lines changed: 0 additions & 9 deletions
@@ -0,0 +1,74 @@
+name: UnitTests for Prompt Tuning
+
+on:
+  schedule:
+    - cron: '0 8 * * 0'
+
+jobs:
+  run:
+    if: (false == contains(github.event.pull_request.title, 'WIP') && github.repository == 'alibaba/FederatedScope')
+    runs-on: ${{ matrix.os }}
+    timeout-minutes: 30
+    strategy:
+      matrix:
+        os: [ubuntu-latest]
+        python-version: ['3.9']
+        torch-version: ['1.10.1']
+        torchvision-version: ['0.11.2']
+        torchaudio-version: ['0.10.1']
+    env:
+      OS: ${{ matrix.os }}
+      PYTHON: '3.9'
+    steps:
+    - uses: actions/checkout@master
+    - name: Setup Python ${{ matrix.python-version }}
+      uses: actions/setup-python@master
+      with:
+        python-version: ${{ matrix.python-version }}
+    - name: Install PyTorch ${{ matrix.torch-version }}+cpu
+      run: |
+        pip install numpy typing-extensions dataclasses
+        pip install torch==${{ matrix.torch-version}}+cpu torchvision==${{matrix.torchvision-version}}+cpu torchaudio==${{matrix.torchaudio-version}}+cpu -f https://download.pytorch.org/whl/torch_stable.html
+    - name: Install FS
+      run: |
+        pip install -e .[test]
+    - name: Install Transformers
+      run: |
+        pip install transformers==4.21.0
+    - name: Install Datasets
+      run: |
+        pip install datasets
+    - name: Install lm-eval
+      run: |
+        pip install lm-eval
+    - name: Test Prompt Tuning
+      run: |
+        python ../../main.py \
+          --cfg federatedscope/nlp/prompt_tuning/baseline/config_alter_train.yaml \
+          data.dataset_name arc_challenge \
+          data.batch_size 1 \
+          data.max_seq_len 32 \
+          grad.grad_accum_count 1 \
+          federate.client_num 2 \
+          federate.total_round_num 2 \
+          federate.make_global_train True \
+          federate.pl_init_kd True \
+          federate.pl_kd_cfg_file federatedscope/nlp/prompt_tuning/baseline/config_init_kd_test.yaml \
+          federate.pl_global_cfg_file federatedscope/nlp/prompt_tuning/baseline/config_global.2.yaml \
+          model.use_fp16 True \
+          model.model_type facebook/opt-1.3b \
+          model.use_prefix_prj False \
+          model.server_prefix_len 4 \
+          model.client_prefix_len 4 \
+          model.num_server_layers 24 \
+          model.num_client_layers 24 \
+          model.share_client_layer_param True \
+          model.client_start_layer_id 0 \
+          model.num_client_layers_per_cell 1 \
+          train.optimizer.lr 5e-4 \
+          train.optimizer.eps 1e-4 \
+          train.local_update_steps 2 \
+          outdir exp/arc_challenge \
+          data.is_debug True \
+
+        [ $? -eq 1 ] && exit 1 || echo "Passed"
@@ -103,7 +103,6 @@ def extend_data_cfg(cfg):
     cfg.data.dataset_name = ''
     cfg.data.train_frac = 0.9
     cfg.data.num_train_per_client = -1
-    cfg.data.non_iid_split = False
 
     # --------------- outdated configs ---------------
     # TODO: delete this code block
 
@@ -1,13 +1,15 @@
 ## Tunable Soft Prompts are Messengers in Federated Learning
 The implementation of *Tunable Soft Prompts are Messengers in Federated Learning*.
 
+In this study, we propose a novel FL training approach that accomplishes information exchange among participants via tunable soft prompts.
+These soft prompts are updated and transmitted between the server and clients, taking over the duty of the global model parameters and serving as messengers to deliver useful knowledge in local data and global models.
 
 ### Installation
 First of all, you need to install FederatedScope, please refer to [installation](https://github.com/alibaba/FederatedScope#step-1-installation).
 
 Besides, we need some additional requirements for NLP tasks, including:
-* transformers
-* datasets
+* Transformers
+* Datasets
 * lm-eval
 
 ```bash
@@ -17,7 +19,7 @@ pip install lm-eval
 ```
 
 ### Reproduction
-**Prefix-Tuning**
+**Prefix-tuning**
 ```bash
 bash run_gpt_prefix.sh $DEVICE  # gpt2-xl
 bash run_opt_prefix.sh $DEVICE  # opt-1.3b
 
@@ -0,0 +1,23 @@
+federate:
+  total_round_num: 1
+  pl_alter_train: False
+data:
+  batch_size: 1
+model:
+  server_prefix_len: 0
+  client_prefix_len: 0
+  server_freeze_param: ['model']
+  client_freeze_param: []
+  only_use_hidden_loss: True
+train:
+  batch_or_epoch: batch
+  local_update_steps: 10
+  optimizer:
+    type: AdamW
+    lr: 5e-4
+    weight_decay: 0.01
+  scheduler:
+    type: warmup_step
+    warmup_ratio: 0.1
+grad:
+  grad_accum_count: 1
@@ -21,7 +21,6 @@ CLIENT_START_LAYER_ID=0
 NUM_CLIENT_LAYERS_PER_CELL=48
 LR=5e-2
 EPS=1e-4
-NON_IID_SPLIT=False
 MAKE_GLOBAL_TRAIN=True
 SHARE_CLIENT_LAYER_PARAM=False
 PL_INIT_KD=False
@@ -32,7 +31,6 @@ DEBUG=False
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name arc_challenge \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -61,7 +59,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name arc_easy \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -90,7 +87,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name openbookqa \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -119,7 +115,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name web_questions \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -148,7 +143,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name hellaswag \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -177,7 +171,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name piqa \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -206,7 +199,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name sciq \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -235,7 +227,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name race \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
 
@@ -16,12 +16,11 @@ SERVER_PREFIX_LEN=40
 CLIENT_PREFIX_LEN=40
 NUM_CLIENT=10
 NUM_SERVER_LAYERS=48
-NUM_CLIENT_LAYERS=48
+NUM_CLIENT_LAYERS=1
 CLIENT_START_LAYER_ID=0
 NUM_CLIENT_LAYERS_PER_CELL=1
 LR=5e-3
 EPS=1e-4
-NON_IID_SPLIT=False
 MAKE_GLOBAL_TRAIN=True
 SHARE_CLIENT_LAYER_PARAM=False
 PL_INIT_KD=False
@@ -32,7 +31,6 @@ DEBUG=False
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name arc_challenge \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -61,7 +59,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name arc_easy \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -90,7 +87,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name openbookqa \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -119,7 +115,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name web_questions \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -148,7 +143,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name hellaswag \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -177,7 +171,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name piqa \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -206,7 +199,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name sciq \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -235,7 +227,6 @@ CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name race \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
 
@@ -21,7 +21,6 @@ CLIENT_START_LAYER_ID=0
 NUM_CLIENT_LAYERS_PER_CELL=1
 LR=5e-4
 EPS=1e-4
-NON_IID_SPLIT=False
 MAKE_GLOBAL_TRAIN=True
 SHARE_CLIENT_LAYER_PARAM=True
 PL_INIT_KD=True
@@ -36,7 +35,6 @@ USE_PREFIX_PRJ=False
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name arc_challenge \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -69,7 +67,6 @@ USE_PREFIX_PRJ=False
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name arc_easy \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -102,7 +99,6 @@ USE_PREFIX_PRJ=False
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name openbookqa \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -135,7 +131,6 @@ USE_PREFIX_PRJ=False
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name web_questions \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -168,7 +163,6 @@ USE_PREFIX_PRJ=True
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name hellaswag \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -201,7 +195,6 @@ USE_PREFIX_PRJ=False
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name piqa \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -234,7 +227,6 @@ USE_PREFIX_PRJ=True
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name sciq \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \
@@ -267,7 +259,6 @@ USE_PREFIX_PRJ=True
 CUDA_VISIBLE_DEVICES=$DEVICE python ../../main.py \
   --cfg $CFG \
   data.dataset_name race \
-  data.non_iid_split $NON_IID_SPLIT \
   data.batch_size $BATCH_SIZE \
   data.max_seq_len $MAX_SEQ_LEN \
   grad.grad_accum_count $GRAD_ACCUM \