A curated list of resources of chinese corpora for NLP(Natural Language Processing)
中文自然语言处理语料 收集列表
Pull requests are welcome!
欢迎提交PR!
出处 | 语料大小 | 年代 |
---|---|---|
upenn.edu | 各种 | 各种 |
出处 | 语料大小 | 年代 |
---|---|---|
conll.org | 各种 | 各种 |
出处 | 语料大小 | 年代 |
---|---|---|
wikimedia.org | 各种 | 各种 |
出处 | 语料大小 | 年代 |
---|---|---|
ics.uci.edu | 221k | 2015 |
出处 | 语料大小 | 年代 |
---|---|---|
www.opensubtitles.org | 各种 | 各种 |
出处 | 语料大小 | 年代 |
---|---|---|
opendata.pku.edu.cn | 各种 | 各种 |
出处 | 语料大小 | 年代 |
---|---|---|
新加坡科技与设计大学 StatNLP | 各种(英/中/印度) | 2017 |
出处 | 语料大小 | 年代 |
---|---|---|
清华大学自然语言处理实验室 | 740k | 2005-2011 |
- 任务1: Chinese Word Semantic Relation Classification
- 任务2: 新闻头条分类
- 任务3: 新闻头条摘要
- 任务4: Emotional Conversation Generation
- 任务5: 开放领域问答
- 任务6: 社交网络用户画像
出处 | 语料大小 | 年代 |
---|---|---|
新闻头条分类 NLPCC 2017 | 200k | 2017 |
新闻头条摘要 NLPCC 2017 | 未考察 | 2017 |
- 任务1: 情绪识别
- 任务2: 语法纠错
- 任务3: 自动文摘
- 任务4: 任务型对话系统中的口语理解
- 任务5: 多轮人机对话
- 任务6: 知乎问题标注
- 任务7: 开放领域问答
- 任务8: 用户画像与推荐
出处 | 语料大小 | 年代 |
---|---|---|
NLPCC 2018 | 各种 | 2018 |
- 任务1: 面向中文电子病历的命名实体识别
- 任务2: 面向中文短文本的实体链指任务
- 任务3: 人物关系抽取
- 任务4: 面向金融领域的事件主体抽取
- 任务5: 公众公司公告信息抽取
- 任务6: 中文知识图谱问答
出处 | 语料大小 | 年代 |
---|---|---|
CCKS 2019 | 各种 | 2019 |
- 任务1: 面向中文电子病历的命名实体识别
- 任务2: 面向音乐领域的命令理解任务
- 任务3: 微众银行智能客服问句匹配大赛
- 任务4: 开放领域的中文问答任务
出处 | 语料大小 | 年代 |
---|---|---|
CCKS 2018 | 各种 | 2018 |
- 任务1: 问题命名实体识别和链接
出处 | 语料大小 | 年代 |
---|---|---|
CCKS 2017 | 各种 | 2017 |
- 任务1: 用户画像技术评测
- 任务2: 中文人机对话技术评测 用户意图领域分类
- 任务3: 文本溯源技术评测
出处 | 语料大小 | 年代 |
---|---|---|
用户画像 SMP2018, SMP-EUPT | 28万 | 2018 |
中文人机对话 SMP2018, SMP-ECDT | 极少 | 2018 |
文本溯源 SMP2018, SMP-ETST | 极少 | 2018 |
- 任务1: CSDN用户画像技术评测
- 任务2: 中文人机对话技术评测
出处 | 语料大小 | 年代 |
---|---|---|
CSDN用户画像 SMP2017, CSDN | 10万 | 2017 |
中文人机对话 SMP2017ECDT | 极少 | 2017 |
- 任务1: 微博用户画像
出处 | 语料大小 | 年代 |
---|---|---|
微博用户画像 SMP2016, 微博 | 4.6万 | 2016 |
出处 | 语料大小 | 年代 |
---|---|---|
WSDM Cup 2019 | 400k | 2018 |
出处 | 语料大小 | 年代 |
---|---|---|
ymcui/cmrc2017 | 364k | 2017 |
出处 | 语料大小 | 年代 |
---|---|---|
ymcui/cmrc2018 | 18k | 2018 |
出处 | 语料大小 | 年代 |
---|---|---|
ymcui/cmrc2019 | 100k | 2019 |
出处 | 语料大小 | 年代 |
---|---|---|
yongfeng.me/dataset | 6000万 | 2014 |
出处 | 语料大小 | 年代 |
---|---|---|
yongfeng.me/dataset | 360万 | 2014 |
出处 | 语料大小 | 年代 |
---|---|---|
challenger.ai | 1300万 | 2018 |
出处 | 语料大小 | 年代 |
---|---|---|
challenger.ai | 20万 | 2018 |
出处 | 语料大小 | 年代 |
---|---|---|
challenger.ai | 25万 | 2018 |
出处 | 语料大小 | 年代 |
---|---|---|
sogou.com | 免费小样本 | 2012 |
出处 | 语料大小 | 年代 |
---|---|---|
bosonnlp.com | 中小 | 2014-2015 |
出处 | 语料大小 | 年代 |
---|---|---|
openkg.cn | 各种 | 各种 |
出处 | 语料大小 | 年代 |
---|---|---|
biendata.com | 各种 | 各种 |
出处 | 语料大小 | 年代 |
---|---|---|
biendata.com, 搜狐 | 百万级 | 2018 |
出处 | 语料大小 | 年代 |
---|---|---|
biendata.com | 未知 | 2019 |
出处 | 语料大小 | 年代 |
---|---|---|
nlpir.org | ~2万 | 2011 |
出处 | 语料大小 | 年代 |
---|---|---|
baidu | 950k | 2017 |
出处 | 语料大小 | 年代 |
---|---|---|
jhu.edu | 19k | 2015 |
出处 | 语料大小 | 年代 |
---|---|---|
github.com/MarkWuNLP | 1000k | 2017 |
出处 | 语料大小 | 年代 |
---|---|---|
52nlp.cn | 39k | 2010 |
出处 | 语料大小 | 年代 |
---|---|---|
github.com/crownpku | 各种 | 各种 |
出处 | 语料大小 | 年代 |
---|---|---|
github.com/crownpku | 小 | 各种 |
出处 | 语料大小 | 年代 |
---|---|---|
github.com/fateleak | 未知 | 2016 |
出处 | 语料大小 | 年代 |
---|---|---|
github.com/nonamestreet | 3G | 未知 |
出处 | 语料大小 | 年代 |
---|---|---|
blog.just4fun.site | 各种 | 各种 |
出处 | 语料大小 | 年代 |
---|---|---|
github.com/Samurais | 小 | 2016 |
出处 | 语料大小 | 年代 |
---|---|---|
github.com/Samurais | 小 | 未知 |
出处 | 语料大小 | 年代 |
---|---|---|
erhengzhong | 未知 | 2010-2012 |
出处 | 语料大小 | 年代 |
---|---|---|
chinese-poetry/chinese-poetry | 5.5万首唐诗、26万首宋诗和2.1万首宋词 | 唐宋 |
出处 | 语料大小 | 年代 |
---|---|---|
wainshine/Company-Names-Corpus | 480万 | 2018 |
出处 | 语料大小 | 年代 |
---|---|---|
ymcui/Chinese-Cloze-RC | 87万 | 未知 |
出处 | 语料大小 | 年代 |
---|---|---|
Determined22/zh-NER-TF | 5万 | 1998 |
出处 | 语料大小 | 年代 |
---|---|---|
brightmart/nlp_chinese_corpus | 250万 | 2016 |
出处 | 语料大小 | 年代 |
---|---|---|
brightmart/nlp_chinese_corpus | 150万 | 2016 |
出处 | 语料大小 | 年代 |
---|---|---|
brightmart/nlp_chinese_corpus | 410万 | 2016 |
出处 | 语料大小 | 年代 |
---|---|---|
GaoPeng97/transformer-xl-chinese | 410万 | 2011 |
出处 | 语料大小 | 年代 |
---|---|---|
DRCKnowledgeTeam/DRCD | 3万 | 2018 |
出处 | 语料大小 | 年代 |
---|---|---|
zhengcj1/ChID-Dataset | 729k | 2019 |
出处 | 语料大小 | 年代 |
---|---|---|
kaggle.com/utmhikari | 200万 | 2017 |
出处 | 语料大小 | 年代 |
---|---|---|
kesci.com | 未知 | 2019 |
出处 | 语料大小 | 年代 |
---|---|---|
github.com/DongDongGe1 | 500 | 2019 |
出处 | 语料大小 | 年代 |
---|---|---|
zhihu.com/people/sgai | 6万 | 2019 |
出处 | 语料大小 | 年代 |
---|---|---|
kesci.com | 未知 | 2019 |
出处 | 语料大小 | 年代 |
---|---|---|
github.com/fate233 | 38万 | 2018 |
出处 | 语料大小 | 年代 |
---|---|---|
kesci.com | 未知 | 2011-2016 |
出处 | 语料大小 | 年代 |
---|---|---|
kaggle.com | 19.1k | 2019 |
出处 | 语料大小 | 年代 |
---|---|---|
github.com/lancopku | 未知 | 2018 |
出处 | 语料大小 | 年代 |
---|---|---|
kesci.com | 19W | 2019 |
出处 | 语料大小 | 年代 |
---|---|---|
kaggle.com | 143k | 2019 |
出处 | 语料大小 | 年代 |
---|---|---|
kesci.com | 未知 | 2019 |
模型 | 语料大小 | 嵌入大小 |
---|---|---|
word2vec/fasttext | 各种 | 各种 |
模型 | 语料大小 | 嵌入大小 |
---|---|---|
word2vec | 50101 | 300 |
模型 | 语料大小 | 嵌入大小 |
---|---|---|
fastText | 简中332647 | 300 |
模型 | 语料大小 | 嵌入大小 |
---|---|---|
BPE | 各种 | 各种 |
模型 | 语料大小 | 嵌入大小 |
---|---|---|
DSG | 800多万 | 200 |
模型 | 语料大小 | 特点 |
---|---|---|
RoBERTa | 近3亿个句子,100亿个中文字 | 6层/12层/24层 |