-
Notifications
You must be signed in to change notification settings - Fork 13
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
求教训练数据构建经验 #4
Comments
我们粗暴的把眼科书籍中的任意一段话,扔给大语言模型(比如,自己搭建一个interlm2-chat-20b-4bit),然后让大语言模型根据这段话构建 对话数据。这个可以参考 chat huanhuan项目的如何从小说中构建数据集。https://github.com/KMnO4-zx/extract-dialogue。 我们还加了眼科习题的数据(单选题) 我根据实际训练结果来提供一些经验:
在微调阶段,一定要保证数据的质量,不然性能不升反降。 |
学习了,感谢分享 👍 |
请问大佬,增量预训练数据量大约有多少?领域数据:通用数据比多少呢? |
如果仅仅用来体验 agent 工具调用能力,可以不微调,使用 InternLM2-chat-7b就行 如果想在医疗领域回答的更好,这需要微调。但是微调的数据量/以及与通用数据的比例你还是参考权威文献吧,我没找到最佳实践,不敢误导别人。 |
谢谢~
The text was updated successfully, but these errors were encountered: