InternLM Evaluation SIG #589
mattheliu
started this conversation in
Evaluation
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
目的:探索 学习大模型的大模型评测技术,并产出多个最佳实践和典型案例
时间周期:2024 年 2 月——6 月
大型语言模型(LLMs)在广泛的任务领域展示了卓越的能力。它们吸引了大量关注,并在许多下游应用中得到了应用。然而,类似于双刃剑,LLMs也带来了潜在的风险。它们可能受到私人数据泄露的影响,或者产生不恰当、有害或误导性的内容。此外,LLMs的快速进展引发了人们对可能出现缺乏足够保障的超智能系统的担忧。为了有效地利用LLMs的能力,并确保它们的安全和有益发展,有必要对LLMs进行严格而全面的评估。
兴趣小组主线任务:
1.垂直领域评测基准构建
2.scalable overight探索
3.主观评测与人类偏好探索(数据飞轮构造)
4.评测相关的 Arxiv 论文共同撰写
组员福利:
良好的学习氛围
优秀组员证书
上海人工智能实验室内推机会
免费且充足的算力支持
上海人工智能实验室研究员亲自指导
InternLM 社区已有评测工作:
opencompass:https://github.com/open-compass/opencompass
学习资料参考:
MLGroupJLU:https://llm-eval.github.io/,https://github.com/MLGroupJLU/LLM-eval-survey
GPT-Fathom:https://github.com/GPT-Fathom/GPT-Fathom
大语言模型HELM评测:https://arxiv.org/abs/2211.09110
Evaluation 论文仓库:https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers
小伙伴如果有喜欢的、想做的大模型评测项目欢迎参与贡献哦~
想参与的同学欢迎联系浦语小助手(微信搜索 InternLM),或者联系兴趣刘卓鑫(微信搜索 l_iyu27)
飞书共享文件夹:https://cguue83gpz.feishu.cn/drive/folder/E4rMfeLUSlO6iVdlJN9cCqwXnIh?from=from_copylink
Beta Was this translation helpful? Give feedback.
All reactions