Initial commit

haixuanTao · haixuanTao · commit debd1f50021c · 2024-11-12T10:53:39.000+08:00
diff --git a/.gitignore b/.gitignore
@@ -3,6 +3,9 @@ __pycache__/
 *.py[cod]
 *$py.class
 
+tests/
+data/data/
+
 # C extensions
 *.so
 
@@ -181,4 +184,4 @@ wandb/
 
 # Distributed leaning
 hostfile.txt
-.deepspeed_env
+.deepspeed_env
diff --git a/data/hdf5_vla_dataset.py b/data/hdf5_vla_dataset.py
@@ -18,7 +18,7 @@ class HDF5VLADataset:
     def __init__(self) -> None:
         # [Modify] The path to the HDF5 dataset directory
         # Each HDF5 file contains one episode
-        HDF5_DIR = "data/datasets/agilex/rdt_data/"
+        HDF5_DIR = "/home/1ms.ai/dora/node-hub/dora-rdt-1b/dora_rdt_1b/RoboticsDiffusionTransformer/tests/cube_pick_and_place"
         self.DATASET_NAME = "agilex"
         
         self.file_paths = []
@@ -28,7 +28,7 @@ def __init__(self) -> None:
                 self.file_paths.append(file_path)
                 
         # Load the config
-        with open('configs/base.yaml', 'r') as file:
+        with open('/home/1ms.ai/dora/node-hub/dora-rdt-1b/dora_rdt_1b/RoboticsDiffusionTransformer/configs/base.yaml', 'r') as file:
             config = yaml.safe_load(file)
         self.CHUNK_SIZE = config['common']['action_chunk_size']
         self.IMG_HISORY_SIZE = config['common']['img_history_size']
@@ -133,20 +133,22 @@ def parse_hdf5_file(self, file_path):
             step_id = np.random.randint(first_idx-1, num_steps)
             
             # Load the instruction
-            dir_path = os.path.dirname(file_path)
-            with open(os.path.join(dir_path, 'expanded_instruction_gpt-4-turbo.json'), 'r') as f_instr:
-                instruction_dict = json.load(f_instr)
-            # We have 1/3 prob to use original instruction,
-            # 1/3 to use simplified instruction,
-            # and 1/3 to use expanded instruction.
-            instruction_type = np.random.choice([
-                'instruction', 'simplified_instruction', 'expanded_instruction'])
-            instruction = instruction_dict[instruction_type]
-            if isinstance(instruction, list):
-                instruction = np.random.choice(instruction)
+            # dir_path = os.path.dirname(file_path)
+            # with open(os.path.join(dir_path, 'expanded_instruction_gpt-4-turbo.json'), 'r') as f_instr:
+            #     instruction_dict = json.load(f_instr)
+            # # We have 1/3 prob to use original instruction,
+            # # 1/3 to use simplified instruction,
+            # # and 1/3 to use expanded instruction.
+            # instruction_type = np.random.choice([
+            #     'instruction', 'simplified_instruction', 'expanded_instruction'])
+            # instruction = instruction_dict[instruction_type]
+            # if isinstance(instruction, list):
+            #     instruction = np.random.choice(instruction)
             # You can also use precomputed language embeddings (recommended)
-            # instruction = "path/to/lang_embed.pt"
-            
+            import torch
+            instruction = "/home/1ms.ai/dora/node-hub/dora-rdt-1b/dora_rdt_1b/RoboticsDiffusionTransformer/outs/cube_pick_up_and place._embedding.pt"
+            #instruction = torch.load(instruction_path)['embeddings']
+            #instruction = os.path.join(os.path.dirname(file_path), "lang_embed.pt")
             # Assemble the meta
             meta = {
                 "dataset_name": self.DATASET_NAME,
@@ -204,6 +206,7 @@ def fill_in_state(values):
             # Parse the images
             def parse_img(key):
                 imgs = []
+                return np.array(f['observations']['images'][key]).copy()
                 for i in range(max(step_id-self.IMG_HISORY_SIZE+1, 0), step_id+1):
                     img = f['observations']['images'][key][i]
                     imgs.append(cv2.imdecode(np.frombuffer(img, np.uint8), cv2.IMREAD_COLOR))
diff --git a/encode_lang.py b/encode_lang.py
@@ -0,0 +1,59 @@
+import os
+
+import torch
+import yaml
+
+from models.multimodal_encoder.t5_encoder import T5Embedder
+
+
+GPU = 0
+MODEL_PATH = "google/t5-v1_1-xxl"
+CONFIG_PATH = "configs/base.yaml"
+SAVE_DIR = "outs/"
+
+# Modify this to your task name and instruction
+TASK_NAME = "cube_pick_up_and place"
+INSTRUCTION = "Pick up the green cube on the left and put it into the yellow plate on the right."
+
+# Note: if your GPU VRAM is less than 24GB, 
+# it is recommanded to enable offloading by specifying an offload directory.
+OFFLOAD_DIR = None  # Specify your offload directory here, ensuring the directory exists.
+
+def main():
+    with open(CONFIG_PATH, "r") as fp:
+        config = yaml.safe_load(fp)
+    
+    device = torch.device(f"cuda:{GPU}")
+
+    text_embedder = T5Embedder(
+        from_pretrained=MODEL_PATH, 
+        model_max_length=config["dataset"]["tokenizer_max_length"], 
+        device=device,
+        use_offload_folder=OFFLOAD_DIR
+    )
+    tokenizer, text_encoder = text_embedder.tokenizer, text_embedder.model
+
+    tokens = tokenizer(
+        INSTRUCTION, return_tensors="pt",
+        padding="longest",
+        truncation=True
+    )["input_ids"].to(device)
+
+    tokens = tokens.view(1, -1)
+    with torch.no_grad():
+        pred = text_encoder(tokens).last_hidden_state.detach().cpu()
+    
+    save_path = os.path.join(SAVE_DIR, f"{TASK_NAME}.pt")
+    # We save the embeddings in a dictionary format
+    torch.save({
+            "name": TASK_NAME,
+            "instruction": INSTRUCTION,
+            "embeddings": pred
+        }, save_path
+    )
+    
+    print(f'\"{INSTRUCTION}\" from \"{TASK_NAME}\" is encoded by \"{MODEL_PATH}\" into shape {pred.shape} and saved to \"{save_path}\"')
+
+
+if __name__ == "__main__":
+    main()
diff --git a/eval.sh b/eval.sh
@@ -0,0 +1,59 @@
+export NCCL_IB_HCA=mlx5_0:1,mlx5_1:1,mlx5_2:1,mlx5_3:1,mlx5_4:1,mlx5_7:1,mlx5_8:1,mlx5_9:1
+export NCCL_IB_DISABLE=0
+export NCCL_SOCKET_IFNAME=bond0
+export NCCL_DEBUG=INFO
+export NCCL_NVLS_ENABLE=0
+
+export TEXT_ENCODER_NAME="google/t5-v1_1-xxl"
+export VISION_ENCODER_NAME="google/siglip-so400m-patch14-384"
+export OUTPUT_DIR="./checkpoints/rdt-finetune-1b"
+export CFLAGS="-I/usr/include"
+export LDFLAGS="-L/usr/lib/x86_64-linux-gnu"
+export CUTLASS_PATH="/path/to/cutlass"
+
+export WANDB_PROJECT="robotics_diffusion_transformer"
+export CUDA_VISIBLE_DEVICES=5
+
+if [ ! -d "$OUTPUT_DIR" ]; then
+    mkdir "$OUTPUT_DIR"
+    echo "Folder '$OUTPUT_DIR' created"
+else
+    echo "Folder '$OUTPUT_DIR' already exists"
+fi
+
+# For run in a single node/machine
+# accelerate launch main.py \
+#     --deepspeed="./configs/zero2.json" \
+#     ...
+
+
+# --master_port=2000fix RuntimeError:message: address already in use:
+deepspeed --master_port=2000 \
+    --hostfile=hostfile.txt main.py \
+    --deepspeed="./configs/zero2.json" \
+    --pretrained_model_name_or_path="robotics-diffusion-transformer/rdt-1b" \
+    --pretrained_text_encoder_name_or_path=$TEXT_ENCODER_NAME \
+    --pretrained_vision_encoder_name_or_path=$VISION_ENCODER_NAME \
+    --output_dir=$OUTPUT_DIR \
+    --train_batch_size=32 \
+    --sample_batch_size=8 \
+    --max_train_steps=10 \
+    --checkpointing_period=1000 \
+    --sample_period=1 \
+    --checkpoints_total_limit=40 \
+    --lr_scheduler="constant" \
+    --learning_rate=1e-4 \
+    --dataloader_num_workers=8 \
+    --image_aug \
+    --dataset_type="finetune" \
+    --state_noise_snr=40 \
+    --load_from_hdf5 \
+    --report_to=wandb \
+    --precomp_lang_embed 
+    
+
+    # Use this to resume= training from some previous checkpoint
+    # --resume_from_checkpoint=="checkpoint-36000" \
+    # Use this to load from saved lanuage instruction embeddings,
+    # instead of calculating it during training
+    # --precomp_lang_embed \
diff --git a/finetune.sh b/finetune.sh
@@ -5,13 +5,14 @@ export NCCL_DEBUG=INFO
 export NCCL_NVLS_ENABLE=0
 
 export TEXT_ENCODER_NAME="google/t5-v1_1-xxl"
-export VISION_ENCODER_NAME="google/siglip-so400m-patch14-384"
-export OUTPUT_DIR="./checkpoints/rdt-finetune-1b"
+export VISION_ENCODER_NAME="/home/1ms.ai/hf/hf_cache/models--google--siglip-so400m-patch14-384/snapshots/9fdffc58afc957d1a03a25b10dba0329ab15c2a3/"
+export OUTPUT_DIR="./checkpoints/rdt-finetune-1b_10-episode_xavier"
 export CFLAGS="-I/usr/include"
 export LDFLAGS="-L/usr/lib/x86_64-linux-gnu"
 export CUTLASS_PATH="/path/to/cutlass"
 
 export WANDB_PROJECT="robotics_diffusion_transformer"
+export CUDA_VISIBLE_DEVICES=0,1,2,3
 
 if [ ! -d "$OUTPUT_DIR" ]; then
     mkdir "$OUTPUT_DIR"
@@ -27,14 +28,14 @@ fi
 
 deepspeed --hostfile=hostfile.txt main.py \
     --deepspeed="./configs/zero2.json" \
-    --pretrained_model_name_or_path="robotics-diffusion-transformer/rdt-1b" \
+    --pretrained_model_name_or_path="/home/1ms.ai/hf/hf_cache/models--robotics-diffusion-transformer--rdt-1b/snapshots/eb09036cc64ca4945051acbd1bd581d30a1d7711/" \
     --pretrained_text_encoder_name_or_path=$TEXT_ENCODER_NAME \
     --pretrained_vision_encoder_name_or_path=$VISION_ENCODER_NAME \
     --output_dir=$OUTPUT_DIR \
-    --train_batch_size=32 \
-    --sample_batch_size=64 \
-    --max_train_steps=200000 \
-    --checkpointing_period=1000 \
+    --train_batch_size=8 \
+    --sample_batch_size=8 \
+    --max_train_steps=50 \
+    --checkpointing_period=25 \
     --sample_period=500 \
     --checkpoints_total_limit=40 \
     --lr_scheduler="constant" \
@@ -45,7 +46,9 @@ deepspeed --hostfile=hostfile.txt main.py \
     --dataset_type="finetune" \
     --state_noise_snr=40 \
     --load_from_hdf5 \
-    --report_to=wandb
+    --report_to=wandb \
+    --precomp_lang_embed  
+
 
     # Use this to resume training from some previous checkpoint
     # --resume_from_checkpoint="checkpoint-36000" \
diff --git a/models/multimodal_encoder/t5_encoder.py b/models/multimodal_encoder/t5_encoder.py
@@ -70,7 +70,7 @@ def __init__(
         self.use_text_preprocessing = use_text_preprocessing
         self.hf_token = hf_token
 
-        assert from_pretrained in self.available_models
+        #assert from_pretrained in self.available_models
         self.tokenizer = AutoTokenizer.from_pretrained(
             from_pretrained,
             model_max_length=model_max_length,
diff --git a/models/rdt/blocks.py b/models/rdt/blocks.py
@@ -102,6 +102,8 @@ def __init__(
     def forward(self, x: torch.Tensor, c: torch.Tensor, 
                 mask: torch.Tensor | None = None) -> torch.Tensor:
         B, N, C = x.shape
+        # print(c.shape) # todo ,test
+        # _, L, _ = c.shape # ori
         _, L, _ = c.shape
         q = self.q(x).reshape(B, N, self.num_heads, self.head_dim).permute(0, 2, 1, 3)
         kv = self.kv(c).reshape(B, L, 2, self.num_heads, self.head_dim).permute(2, 0, 3, 1, 4)
diff --git a/models/rdt/model.py b/models/rdt/model.py
@@ -148,6 +148,7 @@ def forward(self, x, freq, t, lang_c, img_c, lang_mask=None, img_mask=None):
         # Add multimodal position embeddings
         x = x + self.x_pos_embed
         # Note the lang is of variable length
+        # assert len(lang_c.shape)== 3 # wd,test,todo
         lang_c = lang_c + self.lang_cond_pos_embed[:, :lang_c.shape[1]]
         img_c = img_c + self.img_cond_pos_embed
 
diff --git a/preprocessing_lang_emb.py b/preprocessing_lang_emb.py
@@ -0,0 +1,57 @@
+import os
+
+import torch
+import yaml
+
+from models.multimodal_encoder.t5_encoder import T5Embedder
+
+
+GPU = 4
+MODEL_PATH = "google/t5-v1_1-xxl"
+CONFIG_PATH = "/home/1ms.ai/dora/node-hub/dora-rdt-1b/dora_rdt_1b/RoboticsDiffusionTransformer/configs/base.yaml"
+
+dataset_dir = "/home/1ms.ai/dora/node-hub/dora-rdt-1b/dora_rdt_1b/RoboticsDiffusionTransformer/data/data/dataset/agilex/rdt_data"
+
+# Note: if your GPU VRAM is less than 24GB, 
+# it is recommanded to enable offloading by specifying an offload directory.
+OFFLOAD_DIR = None  # Specify your offload directory here, ensuring the directory exists.
+
+def main():
+    with open(CONFIG_PATH, "r") as fp:
+        config = yaml.safe_load(fp)
+    
+    device = torch.device(f"cuda:{GPU}")
+    text_embedder = T5Embedder(
+        from_pretrained=MODEL_PATH, 
+        model_max_length=config["dataset"]["tokenizer_max_length"], 
+        device=device,
+        use_offload_folder=OFFLOAD_DIR
+    )
+    tokenizer, text_encoder = text_embedder.tokenizer, text_embedder.model
+
+    for task_name in os.listdir(dataset_dir):
+        task_dir = os.path.join(dataset_dir, task_name)
+        embedding_name = os.path.join(task_dir, 'lang_embed.pt')
+        if os.path.exists(embedding_name):
+            continue
+        task_name = " ".join(task_name.split("_"))
+        tokens = tokenizer(
+            task_name, return_tensors="pt",
+            padding="longest",
+            truncation=True
+        )["input_ids"].to(device)
+        
+        tokens = tokens.view(1, -1)
+        with torch.no_grad():
+            pred = text_encoder(tokens).last_hidden_state.detach().cpu()[0]
+    # We save the embeddings in a dictionary format
+        torch.save(
+             pred,
+             embedding_name
+        )
+    
+        print(f'\"{task_name}\" into shape {pred.shape} and saved to \"{embedding_name}\"')
+
+
+if __name__ == "__main__":
+    main()
diff --git a/scripts/encode_lang_batch.py b/scripts/encode_lang_batch.py
@@ -12,7 +12,7 @@
 MODEL_PATH = "google/t5-v1_1-xxl"
 CONFIG_PATH = "configs/base.yaml"
 # Modify the TARGET_DIR to your dataset path
-TARGET_DIR = "data/datasets/agilex/tfrecords/"
+TARGET_DIR = "/home/1ms.ai/dora/node-hub/dora-rdt-1b/dora_rdt_1b/RoboticsDiffusionTransformer/data/data/dataset/agilex/rdt_data/"
 
 
 def main():