Merge branch 'fedsp' of https://github.com/alibaba/FederatedScope into fedprompt

xieyxclack · xieyxclack · commit 650b470ebd70 · 2023-10-17T17:27:24.000+08:00
diff --git a/README.md b/README.md
@@ -51,14 +51,14 @@ FederatedScope
 │   ├── nlp                      # Federated learning in NLP          
 │   ├── gfl                      # Graph federated learning          
 │   ├── autotune                 # Auto-tunning for federated learning         
-│   ├── vertical_fl              # Vartical federated learning         
+│   ├── vertical_fl              # Vertical federated learning         
 │   ├── contrib                          
 │   ├── main.py           
 │   ├── ... ...          
 ├── scripts                      # Scripts for reproducing existing algorithms
 ├── benchmark                    # We release several benchmarks for convenient and fair comparisons
 ├── doc                          # For automatic documentation
-├── enviornment                  # Installation requirements and provided docker files
+├── environment                  # Installation requirements and provided docker files
 ├── materials                    # Materials of related topics (e.g., paper lists)
 │   ├── notebook                        
 │   ├── paper_list                                        
diff --git a/federatedscope/attack/trainer/gaussian_attack_trainer.py b/federatedscope/attack/trainer/gaussian_attack_trainer.py
@@ -31,6 +31,9 @@ def hook_on_batch_backward_generate_gaussian_noise_gradient(ctx):
     ctx.optimizer.zero_grad()
     ctx.loss_task.backward()
 
+    if ctx.grad_clip > 0:
+        torch.nn.utils.clip_grad_norm_(ctx.model.parameters(), ctx.grad_clip)
+
     grad_values = list()
     for name, param in ctx.model.named_parameters():
         if 'bn' not in name:
diff --git a/federatedscope/core/aggregators/bulyan_aggregator.py b/federatedscope/core/aggregators/bulyan_aggregator.py
@@ -77,7 +77,7 @@ def _aggre_with_bulyan(self, models):
         Apply MultiKrum to select \theta (\theta <= client_num-
         2*self.byzantine_node_num) local models
         '''
-        init_model = self.model.state_dict()
+        _, init_model = models[0]
         global_update = copy.deepcopy(init_model)
         models_para = [each_model[1] for each_model in models]
         krum_scores = self._calculate_score(models_para)
diff --git a/federatedscope/core/aggregators/clients_avg_aggregator.py b/federatedscope/core/aggregators/clients_avg_aggregator.py
@@ -71,6 +71,9 @@ def _para_weighted_avg(self, models, recover_fun=None):
             for i in range(len(models)):
                 local_sample_size, local_model = models[i]
 
+                if key not in local_model:
+                    continue
+
                 if self.cfg.federate.ignore_weight:
                     weight = 1.0 / len(models)
                 elif self.cfg.federate.use_ss:
@@ -126,6 +129,8 @@ def inc(self, content):
         if isinstance(content, tuple):
             sample_size, model_params = content
             for key in self.maintained:
+                if key not in model_params:
+                    continue
                 # if model_params[key].device != self.maintained[key].device:
                 #    model_params[key].to(self.maintained[key].device)
                 self.maintained[key] = (self.cnt * self.maintained[key] +
diff --git a/federatedscope/core/aggregators/median_aggregator.py b/federatedscope/core/aggregators/median_aggregator.py
@@ -41,7 +41,7 @@ def aggregate(self, agg_info):
         return updated_model
 
     def _aggre_with_median(self, models):
-        init_model = self.model.state_dict()
+        _, init_model = models[0]
         global_update = copy.deepcopy(init_model)
         for key in init_model:
             temp = torch.stack([each_model[1][key] for each_model in models],
diff --git a/federatedscope/core/aggregators/normbounding_aggregator.py b/federatedscope/core/aggregators/normbounding_aggregator.py
@@ -35,28 +35,34 @@ def aggregate(self, agg_info):
     def _aggre_with_normbounding(self, models):
         models_temp = []
         for each_model in models:
-            param = self._flatten_updates(each_model[1])
+            param, ignore_keys = self._flatten_updates(each_model[1])
             if torch.norm(param, p=2) > self.norm_bound:
                 scaling_rate = self.norm_bound / torch.norm(param, p=2)
                 scaled_param = scaling_rate * param
                 models_temp.append(
-                    (each_model[0], self._reconstruct_updates(scaled_param)))
+                    (each_model[0],
+                     self._reconstruct_updates(scaled_param, ignore_keys)))
             else:
                 models_temp.append(each_model)
         return self._para_weighted_avg(models_temp)
 
     def _flatten_updates(self, model):
-        model_update = []
+        model_update, ignore_keys = [], []
         init_model = self.model.state_dict()
         for key in init_model:
+            if key not in model:
+                ignore_keys.append(key)
+                continue
             model_update.append(model[key].view(-1))
-        return torch.cat(model_update, dim=0)
+        return torch.cat(model_update, dim=0), ignore_keys
 
-    def _reconstruct_updates(self, flatten_updates):
+    def _reconstruct_updates(self, flatten_updates, ignore_keys):
         start_idx = 0
         init_model = self.model.state_dict()
         reconstructed_model = copy.deepcopy(init_model)
         for key in init_model:
+            if key in ignore_keys:
+                continue
             reconstructed_model[key] = flatten_updates[
                 start_idx:start_idx + len(init_model[key].view(-1))].reshape(
                     init_model[key].shape)
diff --git a/federatedscope/core/aggregators/trimmedmean_aggregator.py b/federatedscope/core/aggregators/trimmedmean_aggregator.py
@@ -42,7 +42,7 @@ def aggregate(self, agg_info):
         return updated_model
 
     def _aggre_with_trimmedmean(self, models):
-        init_model = self.model.state_dict()
+        _, init_model = models[0]
         global_update = copy.deepcopy(init_model)
         excluded_num = int(len(models) * self.excluded_ratio)
         for key in init_model:
diff --git a/federatedscope/core/auxiliaries/model_builder.py b/federatedscope/core/auxiliaries/model_builder.py
@@ -207,4 +207,8 @@ def get_model(model_config, local_data=None, backend='torch', role='client'):
 
 
 def get_trainable_para_names(model):
-    return set(dict(list(model.named_parameters())).keys())
+    grad_params = set()
+    for name, param in model.named_parameters():
+        if param.requires_grad:
+            grad_params.add(name)
+    return grad_params
diff --git a/federatedscope/core/trainers/context.py b/federatedscope/core/trainers/context.py
@@ -154,6 +154,7 @@ def __init__(self, model, cfg, data=None, device=None):
 
         # Setup optimize-related context variable
         if self.cfg.backend == 'torch':
+            # TODO: should we make `self.trainable_para_names` @property？
             self.trainable_para_names = get_trainable_para_names(self.model)
             # TODO: make `criterion` and `regularizer` @property and cached
             #  to compare whether changes happen
diff --git a/federatedscope/core/trainers/trainer.py b/federatedscope/core/trainers/trainer.py
@@ -392,11 +392,11 @@ def _param_filter(self, state_dict, filter_keywords=None):
 
         trainable_filter = lambda p: True if \
             self.cfg.personalization.share_non_trainable_para else \
-            lambda p: p in self.ctx.trainable_para_names
+            p in self.ctx.trainable_para_names
         keyword_filter = filter_by_specified_keywords
         return dict(
             filter(
-                lambda elem: trainable_filter(elem[1]) and keyword_filter(
+                lambda elem: trainable_filter(elem[0]) and keyword_filter(
                     elem[0], filter_keywords), state_dict.items()))
 
     def save_model(self, path, cur_round=-1):
diff --git a/federatedscope/core/workers/client.py b/federatedscope/core/workers/client.py
@@ -200,8 +200,10 @@ def _calculate_model_delta(self, init_model, updated_model):
 
         model_deltas = list()
         for model_index in range(len(init_model)):
-            model_delta = copy.deepcopy(init_model[model_index])
+            model_delta = copy.deepcopy(updated_model[model_index])
             for key in init_model[model_index].keys():
+                if key not in updated_model[model_index].keys():
+                    continue
                 model_delta[key] = updated_model[model_index][
                     key] - init_model[model_index][key]
             model_deltas.append(model_delta)
@@ -425,7 +427,6 @@ def callback_funcs_for_model_para(self, message: Message):
                     else:
                         shared_model_para = symmetric_uniform_quantization(
                             shared_model_para, nbits)
-
                 self.comm_manager.send(
                     Message(msg_type='model_para',
                             sender=self.ID,
diff --git a/federatedscope/core/workers/server.py b/federatedscope/core/workers/server.py
@@ -134,6 +134,19 @@ def __init__(self,
             # set up a trainer for conducting evaluation in server
             assert self.models is not None
             assert self.data is not None
+
+            if self._cfg.backend == 'torch':
+                import torch.nn as nn
+                # Set BN track_running_stats to False
+                for name, module in model.named_modules():
+                    if isinstance(module, nn.BatchNorm2d):
+                        module.track_running_stats = False
+            elif self._cfg.backend == 'tensorflow':
+                # TODO: implement this
+                pass
+            else:
+                raise ValueError(f'Unknown backend named {self._cfg.backend}.')
+
             self.trainer = get_trainer(
                 model=self.models[0],
                 data=self.data,
diff --git a/federatedscope/gfl/fedsageplus/utils.py b/federatedscope/gfl/fedsageplus/utils.py
@@ -65,7 +65,7 @@ def __call__(self, data):
                                    data.x.shape[1]))))
                 else:
                     G.nodes[i]['x_missing'] = data.x[
-                        ids_missing[:self.num_pred]]
+                        ids_missing[:self.num_pred]].numpy()
             else:
                 G.nodes[i]['x_missing'] = np.zeros(
                     (self.num_pred, data.x.shape[1]))
diff --git a/materials/paper_list/FL-LLM/README.md b/materials/paper_list/FL-LLM/README.md
@@ -0,0 +1,14 @@
+### 2023
+| Title | Venue | Link                                                             |
+| --- |-------|------------------------------------------------------------------|
+| FedPETuning: When Federated Learning Meets the Parameter-Efficient Tuning Methods of Pre-trained Language Models | ACL   | [pdf](https://aclanthology.org/2023.findings-acl.632/), [code](https://github.com/SMILELab-FL/FedPETuning) |
+
+### 2022
+| Title | Venue | Link                                    |
+|-------|-------|-----------------------------------------|
+| Scaling Language Model Size in Cross-Device Federated Learning      | ACL Workshop      | [pdf](https://arxiv.org/abs/2204.09715) |
+
+### 2021
+| Title | Venue | Link                                     |
+| --- | --- |------------------------------------------|
+| Scaling federated learning for fine-tuning of large language models | NLDB | [pdf](https://arxiv.org/abs/2102.00875)  |
diff --git a/tests/test_krum_algo.py b/tests/test_krum_algo.py
@@ -199,7 +199,7 @@ def test_guassian_attack_krum(self):
         init_cfg.merge_from_other_cfg(backup_cfg)
         self.assertGreater(
             test_best_results['client_summarized_weighted_avg']['test_acc'],
-            0.2)
+            0.15)
         init_cfg.merge_from_other_cfg(backup_cfg)
 
     def test_guassian_attack_multi_krum(self):