中文搭配资源库

本项目开源了如下论文所涉及的数据和源码：
This project releases the data and codes from the following articles:

胡韧奋, 肖航. 面向二语教学的汉语搭配知识库构建及其应用研究. 语言文字应用. 2019(1).
胡韧奋. 基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究. 语言文字应用, 2021(1).
Renfen Hu, Jifeng Wu, and Xiaofei Lu. Word-combination-based Measures of Phraseological Diversity, Sophistication and Complexity and Their Relationship to L2 Chinese Proficiency and Writing Quality. Language Learning, 2022, 72(4).

为了更好地服务中文搭配教学及研究，我们开发了一系列面向中文学习者、教师和研究者的工具及知识库，包括：

Chinese Collocation Assistant 中文搭配助手网站
Chinese Collocation Analyzer 中文搭配分析器
Chinese Collocation Knowledgebase 中文搭配知识库

1. Chinese Collocation Assistant 中文搭配助手网站

访问地址：http://cca.irishu.cn/

功能说明：该网站面向汉语教学需求，支持以关键词检索搭配，提供搭配在经典汉语教材中的频次、互信息及例句，具体功能可参考网站用户手册（User Guide）。

2. Chinese Collocation Analyzer 中文搭配分析器

填写试用申请后可获得中文搭配分析器下载地址。

中文搭配分析器提供了Windows, MacOS (Intel), MacOS (Apple M1)三种客户端程序，支持现代汉语句法搭配自动抽取和句法复杂度指标计算。

2.1 使用说明

(1) 下载系统对应的程序，解压缩后无须安装，直接打开。Mac OS系统首次运行程序如提示开发者身份未验证，请右键点击打开，为方便后续使用，还可将程序拖至Mac应用程序目录，之后便可通过启动台快捷访问CCA。

(2) 在文本框中输入文本，或者点击选择文件按钮上传txt格式文件，支持上传多个文件进行批量处理。为确保程序运行顺畅，文本框输入限定最长10万字符，上传文件限定最长100万字符/文件。

(3) 点击保存文件按钮指定结果输出位置，默认结果保存为xlsx格式表格文件。

(4) 点击搭配抽取或者指标分析按钮运行程序，程序运行进度在底部状态栏显示。程序处理速度约1万字/秒（与系统配置有关），如需处理较大规模语料，请耐心关注状态栏提示，运行过程中切勿点击其他按钮。

2.2 搭配抽取结果

搭配定义及抽取方法来自论文胡韧奋和肖航（2019），工具支持自动抽取如下类型搭配：

跨语言通用类型	示例
动宾搭配 (Verb-Object, VO)	喜欢看书；唱着歌；学到了技术
主谓搭配 (Subject-Predicate, SP)	歌曲流行；戒指找回来了
形名搭配 (Adjective-Noun, AN)	著名大学；专业书籍；卑鄙的人
状中搭配 (Adverb-Predicate, AP)	突然改变；有效地提高；非常漂亮
汉语特有类型	示例
量名搭配 (Classifier-Noun, CN*)	条河；张纸
框式介词搭配 (Preposition-Postposition, PP*)	在 X 上；像 X 似的；当 X 时
介动搭配 (Preposition-Verb, PV*)	把 X 解决；被 X 吃完了
述补搭配 (Predicate-Complement, PC*)	吃饱；玩得愉快；试了三遍

注1： 复选框输出搭配源句控制是否输出搭配所在的源句。
注2： 复选框频率/互信息筛选控制是否根据外部参考语料库的频率和互信息对所抽取的搭配进行筛选，此处使用的参考语料库为中文维基百科（规模1.38亿词），筛选标准为：该搭配在中文维基百科语料库中的频次>=3、互信息>=0。

2.3 指标分析结果

指标定义及抽取方法来自论文胡韧奋（2021）、Hu, Wu & Lu (2022)，包括句层面和短语层面共计25个指标，如下表所示：

指标	含义	指标	含义
MLS	平均大句长	MLC	平均小句长
MLTU	平均T单位长	NCPS	平均小句数
NTPS	平均T单位数
TOTAL_RTTR	整体搭配多样性	LOWFREQ_RATIO	低频搭配比例
UNIQUE_RTTR	特殊搭配多样性	UNIQUE_RATIO	特殊搭配比例
VO_RTTR	动宾搭配多样性	VO_RATIO	动宾搭配比例
SP_RTTR	主谓搭配多样性	SP_RATIO	主谓搭配比例
AN_RTTR	形名搭配多样性	AN_RATIO	形名搭配比例
AP_RTTR	状中搭配多样性	AP_RATIO	状中搭配比例
CN_RTTR	量名搭配多样性	CN_RATIO	量名搭配比例
PP_RTTR	框式介词搭配多样性	PP_RATIO	框式介词搭配比例
PV_RTTR	介动搭配多样性	PV_RATIO	介动搭配比例
PC_RTTR	述补搭配多样性	PC_RATIO	述补搭配比例

注1： 当用户在文本框中输入时，以框中全部内容为指标分析对象；当用户上传文件时，以每个文件中的内容为一篇分析对象，如需分析多篇文本，请将其分别存储在多个txt文件中。
注2： 复选框搭配层面指向基于搭配多样性和复杂性的指标，复选框句层面指向基于大句、小句和T单位的指标。

3. Chinese Collocation Knowledgebase 中文搭配知识库

本项目开源了搭配知识库原始数据，包括：

edu_collocation_data.xlsx: 从汉语分级阅读语料库子库（规模约240万词）中自动抽取的搭配数据。
wiki_collocation_data.txt.zip：从中文维基百科（规模约1.38亿词）中自动抽取的搭配数据。

下载说明

4. 句法复杂度分析Python源码

环境 (Environments)

Python 3.7+
pyltp

运行 (Run the codes)

python main.py -i ./samples/ -o result.csv -mp path_to_LTP_models

Name	Name	Last commit message	Last commit date
Latest commit iris2hu Update README.md Aug 24, 2023 7709e39 · Aug 24, 2023 History 28 Commits
collocation_data	collocation_data	Update collocation_data.md	Aug 18, 2023
data	data	Add files via upload	Feb 19, 2021
samples	samples	Add files via upload	Feb 19, 2021
README.md	README.md	Update README.md	Aug 24, 2023
cca_search.png	cca_search.png	Add files via upload	Aug 2, 2023
cca_tool.jpg	cca_tool.jpg	Add files via upload	Aug 2, 2023
cca_web.png	cca_web.png	Add files via upload	Aug 2, 2023
clausal.py	clausal.py	Add files via upload	Feb 19, 2021
main.py	main.py	Add files via upload	Feb 19, 2021
syntactic.py	syntactic.py	Add files via upload	Feb 19, 2021
utils_coll.py	utils_coll.py	Add files via upload	Feb 19, 2021
utils_text.py	utils_text.py	Add files via upload	Feb 19, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

中文搭配资源库

1. Chinese Collocation Assistant 中文搭配助手网站

2. Chinese Collocation Analyzer 中文搭配分析器

2.1 使用说明

2.2 搭配抽取结果

2.3 指标分析结果

3. Chinese Collocation Knowledgebase 中文搭配知识库

4. 句法复杂度分析Python源码

About

Releases

Packages

Languages

iris2hu/Chinese-collocation-complexity

Folders and files

Latest commit

History

Repository files navigation

中文搭配资源库

1. Chinese Collocation Assistant 中文搭配助手网站

2. Chinese Collocation Analyzer 中文搭配分析器

2.1 使用说明

2.2 搭配抽取结果

2.3 指标分析结果

3. Chinese Collocation Knowledgebase 中文搭配知识库

4. 句法复杂度分析Python源码

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages