AI for Teochew

本项目搜集、整理现有的将AI语音技术（主要是语音合成和语音识别）应用到潮州方言的各类工作（论文、商业产品、个人开发、数据集）。

现有工作

论文

[LREC-COLING 2024] Experiments on Speech Synthesis for Teochew, Can Taiwanese Help?

很幽默的一篇论文，作者尝试进行潮汕话的语音合成，却懒得做数据集，于是采用了一种方法：从在线潮汕话词典中获取单个字或词的录音文件，与数据量较大的台湾闽南语数据集混合在一起，期望通过句子级的闽南语数据 + 字词级的潮汕话数据，让模型学习到句子级的潮汕话语音合成能力，例如变调能力。

最终，由于台湾闽南语和潮汕话实际差别过大，作者的设想并没成功实现。

商业产品

1、讯飞输入法-潮汕话识别（实际是翻译）

科大讯飞的讯飞输入法在2022年加入了对潮汕方言的支持，但是其噱头大于使用，实际效果可以说是极差，只能识别很日常、常规的词汇，稍微复杂一点的词，甚至是本地地名（如牌坊街、澄海、潮阳）都识别不了，反倒是对很多闽南语词汇识别的挺准。并且自推出之后从未更新过，多半只是骗补贴的应付项目。
2、get 笔记（小程序、app）支持27种方言的识别，是目前对潮州话识别支持最好的产品，会识别为谐音字。
3、五方联手的“家己人”识别器

~~目前唯一一个可能可以期待的项目。暂未实际发布~~。五方机构分别是：
- 深圳广电数字科技有限公司（牵头）
- 汕头融媒集团（即汕头电视台，提供数据和标注）
- 深圳市智想无界科技有限公司 (封装推广，大概率外包)
- 北京中科模识科技有限公司（训练模型）
- 北京语言大学信息科学学院柯登峰团队
项目时间节点：
- 2024.05.24 ，发布第一则推文：文博会亮点：五方联手潮汕方言语音识别项目助力地方语言保护与产业发展。
- 2024.09.16 ，汕头电视台标注团队摆烂，改由汕职院文旅学院（大专院校）志愿者标注：潮汕方言实践基地开班！。
- 2024.11.24 ，趁世界潮商大会和国际潮团联谊年会在汕头举行，发布半成品炒热度：潮汕话“语音识别器”来了。从新闻不甚清晰的特写画面来看，识别效果一般。
- 2025.02.24 ，招募金平、龙湖地区的志愿者录制更多数据，“家己人”的语音识别系统进入优化阶段
新闻截图：

存在隐患：
- 所谓五家机构中，实际只有北京语言大学的柯登峰教授来回奔波，其他四家可有可无。且四家企业里，有两家半是国企，通常国企做产品比较马马虎虎、粗制滥造，尤其是一开始标榜做数据标注的汕头融媒集团，率先将自身责任推给了汕头职业技术学院和民间志愿者。
- 大专院校学生的数据标注质量是否可靠？
- 目前仅限金平、龙湖两区的志愿者，而这两区作为汕头市区，其志愿者尤其是青年、青少年志愿者的方言能力退化严重，录音质量是否能得到保障？

非商业产品/作品

1、youtube 博主 [Efficient NLP] 用whisper微调潮州话，并发布在huggingface。

作者从youtube的潮汕小品视频中，借助字幕切割出35小时左右的数据，对whisper进行微调，效果较差。因为数据集都是自动处理的，非常粗糙，字幕也不能完全反映潮汕话的真实说话内容。
2、微信小程序-潮汕话翻译器

评分2.7。客观说，个人感觉效果比讯飞输入法和youtube博主微调的效果好
3、北京语言大学 - 语音合成系统

新闻｜科技赋能语言和文化——我校信息科学学院教师柯登峰及其研究团队发布创新研究成果

数字人视频链接

本人的工作

数据集

首个开源的、野外的、正字标注的潮汕话数据集teochew_wild。

Teochew-Wild包括12500条音频片段，包含潮州市区、汕头市区、澄海、榕江音、潮安南部等多个区域的口音，声音来自20个发音标准的潮汕母语说话人，他们的身份主要是主持人、播音员、讲古艺人、自媒体博主，因此语料内容即覆盖书面用语，也包含了不少口头用语。Teochew-Wild同时提供正字和拼音标注，是首个公开可用、标注准确率高的潮州话数据集，主要面向语音识别和语音合成任务。
后续工作：800+小时的大规模潮汕话无监督数据集。

文本处理工具

pyPengIm: 首个开源的潮汕话文本处理工具，主要支持汉字转拼音、口音转换、多音字消歧、普通话转潮汕话、 潮州拼音转音素、潮州拼音转国际音标、单字查询等功能。是开发teochew_wild过程中的附属产品。
歹看正字法(PKO)：以现有的专家方案和谐音字为基础进行改进，得到的一个潮汕话正字方案，主要设计目的是，尽可能做到减少多音字、解决有音无字问题、解决与普通话词义冲突，最终为 pyPengIm 工具服务。

潮汕话正字识别-玩具项目

用 teochew_wild 微调 whisper，实现正字的识别（非翻译为普通话），demo和模型权重均上传在huggingface。目前该微调模型在teochew_wild的验证集、测试集均取得10%左右的CER；不过目前teochew的数据时长不到19个小时，仍然有许多“潮汕土语”没有覆盖，所以实际应用效果也一般。~~当然huggingface space只提供免费GPU，所以推理速度特别慢，并且越来越慢，一开始20秒左右，后来100多秒~~

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data		data
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AI for Teochew

现有工作

论文

[LREC-COLING 2024] Experiments on Speech Synthesis for Teochew, Can Taiwanese Help?

商业产品

非商业产品/作品

本人的工作

数据集

文本处理工具

潮汕话正字识别-玩具项目

About

Releases

Packages

p1an-lin-jung/AI_for_Teochew

Folders and files

Latest commit

History

Repository files navigation

AI for Teochew

现有工作

论文

[LREC-COLING 2024] Experiments on Speech Synthesis for Teochew, Can Taiwanese Help?

商业产品

非商业产品/作品

本人的工作

数据集

文本处理工具

潮汕话正字识别-玩具项目

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages