关于这个分支

这是 gpt2-ml 的一个分支，gpt2-ml 是一个不再维护的精彩项目。希望@imcaspar 一切都好。这个分支修复了一些下载链接并使预训练可持续，这意味着您不需要每次都下载预训练文件......

Credit

imcaspar

gpt2-ml

GPT2 for Multiple Languages

简化整理 GPT2 训练代码（based on Grover, supporting TPUs）
移植 bert tokenizer，添加多语言支持
15亿参数 GPT2 中文预训练模型( 15G 语料，训练 10w 步 )
开箱即用的模型生成效果 demo #
15亿参数 GPT2 中文预训练模型( 30G 语料，训练 22w 步 )

预训练模型

Size	Language	Corpus	Vocab	Link1	Link2	SHA256
1.5B Params	Chinese	~30G	CLUE ( 8021 tokens )	Google Drive	Baidu Pan (ffz6)	e698cc97a7f5f706f84f58bb469d614e 51d3c0ce5f9ab9bf77e01e3fcb41d482
1.5B Params	Chinese	~15G	Bert ( 21128 tokens )	Google Drive	Baidu Pan (q9vr)	4a6e5124df8db7ac2bdd902e6191b807 a6983a7f5d09fb10ce011f9a073b183e

训练语料来自 THUCNews 以及 nlp_chinese_corpus，清洗后总文本量约 15G

使用 Cloud TPU Pod v3-256 训练 22w 步

Google Colab

由于colab越来越难以白嫖，这个工程对性能要求较高，出现无响应属于colab性能问题。除非您有付费账号（付费账号是Google公司的colab平台收费，与我和所有贡献者无关，我和所有贡献者也没有从中提成，此项目是全开源的全免费项目。）只需两次鼠标点击（不包括 Colab 授权流程），体验 15 亿参数中文预训练模型生成效果：

[Colab Notebook]

训练

免责声明

该项目中的内容仅供技术研究参考，不作为任何结论性依据。

Citation

@misc{GPT2-ML,
  author = {Zhibo Zhang},{zxkmm}
  title = {GPT2-ML: GPT-2 for Multiple Languages},
  year = {2019},{2022}
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/zxkmm/gpt2-ml}},
}

Reference

https://github.com/google-research/bert

https://github.com/rowanz/grover

Research supported with Cloud TPUs from Google's TensorFlow Research Cloud (TFRC)

Press

[机器之心] 只需单击三次，让中文GPT-2为你生成定制故事

[科学空间] 现在可以用Keras玩中文GPT2了

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_CN.md

README_CN.md

关于这个分支

Credit

imcaspar

gpt2-ml

GPT2 for Multiple Languages

预训练模型

Google Colab

训练

免责声明

Citation

Reference

Press

Files

README_CN.md

Latest commit

History

README_CN.md

File metadata and controls

关于这个分支

Credit

imcaspar

gpt2-ml

GPT2 for Multiple Languages

预训练模型

Google Colab

训练

免责声明

Citation

Reference

Press