-
Notifications
You must be signed in to change notification settings - Fork 5.2k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
如何解决colab炼丹每次都要上传数据集预处理数据集还爆磁盘的蛋疼问题 #764
Comments
很有帮助 赞! |
colab 免费版 浏览器时常断 有点烦。。。 |
训练效果是不是比用3060好?另:你用的batch size是多少? |
我现在用的40在跑 显存大就是好啊 哈哈 |
|
加精一下 |
wow,我只是共享一下我的解决方法,没想到还能被加精。希望我的方法能帮助更多人 |
colab老是爆显存,请问怎么设置PyTorch显存分配好一点 CUDA out of memory. Tried to allocate 3.51 GiB (GPU 0; 14.75 GiB total capacity; 10.81 GiB already allocated; 1.65 GiB free; 11.99 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF |
是不是patches太大了?也有可能运气不好分配到了显存少的显卡。我有一段时间没登COLAB了,不知道有没有调整显卡分配。 |
谢谢 调整patches解决了,但是colab老是断连 |
许多同鞋因为家里设备不佳训练模型效果不好,不得不去世界最大乞丐炼丹聚集地colab上训练。但是对于无法扩容google drive和升级colab的同鞋来说,上传数据集真的如同地狱一般,网速又慢空间又不够,而且每次重置都要上传,预处理令人头疼。我耗时9天终于解决了这个问题,现在给各位同学分享我的解决方案。
首先要去kaggle这个网站上面注册一个账号,然后获取token
我已经把预处理了的数据集(用的aidatatang_200zh)上传在上面了,但是下载数据集需要token,token需要注册账号,具体获取token的方法请自行百度,在此不过多赘述。
然后打开colab
修改-> 笔记本设置->运行时把 None 改成 GPU
输入以下代码:
第三行请根据之前获取到的token填写
这一步是准备好kaggle命令行
然后是下载数据集并解压
为了怕某些童鞋用和我一样的免费版,如果从下载未处理的数据集开始磁盘要爆炸,所以我把预处理过的数据集上传到kaggle了
而且解压后会自己删掉zip,非常滴银杏
实测下载速度能达到200MB/s,网慢点也有50MB/s,非常滴快
这一步要不了10分钟就可以弄好了
然后改hparams
我用的batch size是32,同鞋们可以根据情况自行更改
开始训练
注意,开始这个步骤前请先挂载谷歌云盘,不想挂载的就把-m后面的路径改了
我选择drive是因为下次训练又能继续上传训练的进度继续训练
然后就是欢快的白嫖时间了
氪金的同鞋可以运行!nvidia-smi查看显卡信息,白嫖版的都是tesla t4 16g显存
实测9k步的时候开始出现注意力曲线,loss值为0.45
注意!白嫖版的用户长时间不碰电脑colab会自动断开
再次打开环境会还原成最初的样子
这个时候选择drive保存的优势就体现出来了:不用担心模型重置被删掉
第一次写,写得不好请见谅
希望这篇教程可以帮助到你们
The text was updated successfully, but these errors were encountered: