- セットアップなど
- 標準コード
- Dockefile made by ssone
- 数十分はかかります。
git clone https://github.com/hatakeyama-llm-team/llm.git
sudo docker build -t llm .
- 実行
#sudo docker run --gpus all --rm -it -p 8899:8888 -v .:/home/llm llm bash
#1回目の実行
sudo docker run --gpus all --shm-size='1gb' -it -p 8899:8888 -v .:/home/llm llm bash
#2回目以降
sudo docker start -i ...
sudo chmod -R 777 llm
cd llm/
conda activate scr
#初回起動時は以下のsetup scriptを実行します。
bash docker_setup.sh
#huggingfaceなどもログインします
huggingface-cli login
wandb login
- cuda (nvcc)の11.8が必要。ドライバは新しくても問題ない
- cuda toolkitや、複数のcudaを入れる方法などを参照
#installの例 (driverは元のまま、cuda toolkitのみ別途入れればOK)
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
sudo bash cuda_11.8.0_520.61.05_linux.run
#必要に応じ、パスを通しておく
export PATH="/usr/local/cuda-11.8/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH"
- セットアップスクリプト (詳細はこちら)
cd codes
bash setup.sh
- datasetsライブラリをもとに、データを読み込んで行きます
- Branch-Train-Merge/カリキュラム学習的な考えを想定したシステム設計なので、どのデータ配分などもここで決めます
- トークナイザーの学習、トークナイズ、事前学習、HuggingFace modelへの変換を行います。
- ファインチューニングします。
- 構築したモデルを評価します。
cd codes
bash auto.sh