训练过程中albert占用的显存很大 #28

fatmelon · 2019-11-26T16:37:51Z

你好：
我使用同样的数据pipeline训练QA模型，使用bert-wwm的时候可以设置batchsize到12，使用albert-xxlarge-v2只能设置batchsize到6。但是albert-xxlarge-v2的模型文件本身只有900M左右而bert-wwm的模型文件有1400M，请问有什么可能的原因造成这种情况吗？

lonePatient · 2019-11-26T23:59:33Z

@fatmelon 有1400M的bert-wwm模型？？？

fatmelon · 2019-11-27T02:21:14Z

@lonePatient

https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-whole-word-masking-finetuned-squad-pytorch_model.bin

shawroad · 2020-07-23T09:48:32Z

你好：
我使用同样的数据pipeline训练QA模型，使用bert-wwm的时候可以设置batchsize到12，使用albert-xxlarge-v2只能设置batchsize到6。但是albert-xxlarge-v2的模型文件本身只有900M左右而bert-wwm的模型文件有1400M，请问有什么可能的原因造成这种情况吗？

你还是没有理解albert的优点。它并不是模型小，占的显存就小。比如albert的base 虽然只有五六十兆，但是和bert-base(三百多兆)显存基本一致。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

训练过程中albert占用的显存很大 #28

训练过程中albert占用的显存很大 #28

fatmelon commented Nov 26, 2019

lonePatient commented Nov 26, 2019

fatmelon commented Nov 27, 2019

shawroad commented Jul 23, 2020

训练过程中albert占用的显存很大 #28

训练过程中albert占用的显存很大 #28

Comments

fatmelon commented Nov 26, 2019

lonePatient commented Nov 26, 2019

fatmelon commented Nov 27, 2019

shawroad commented Jul 23, 2020