Filter4J是一个极小化的,基于深度学习的,文本内容违规检测(文本内容安全、文本审核)库。
- 基于深度学习,能够有效地对抗拆字、影射、混淆等规避手段
- 代码无第三方依赖,仅3个文件,可以内嵌到任何项目中使用*
- 具有一定的上下文理解能力,能够识别一些包含某些关键词但并不违规的句子
*: 为了最好的运行效率,我们还是推荐您使用LL4J来运行Filter4J。
- 模型较大,速度较慢
- 模型具有一定的不可解释性,无法直接得知为什么某个句子被判定为违规
- 受到上游数据集与预训练精度限制,可能会出现一些误判、漏判
基于机器的文本审核系统,无法完全替代人工审核。请在使用本库时,仍然保持对用户输入的警惕。
作者在此明示,本模型一定存在缺陷且会存在错误判断,其输出结果与实际情况一定存在偏差。
使用者不应该将其用于任何环境中,除非这种偏差不会对使用者造成任何损失。
Filter4j 演示程序 已经启动!
在吗?我想草你
异常
山火十分可怕,所过之处寸草不生
正常
青山绿水,白草红叶黄花
正常
在吗?我想ca/o你
异常
我问候你全家
异常
我们去照相馆拍全家福了
正常
“你好”是一个常用的问候语
正常
System.out.println(TextFilter.isIllegal(str) ?"异常":"正常");
本项目隶属于LL4J。
训练用仓库:https://github.com/LL4J/Filter4Jx
若欲反馈任何模型质量与性能相关的问题,还请移步训练仓库。
您可以在训练仓库中找到关于本模型的工作原理、训练数据、训练方法等细节。
若您有其他问题,欢迎在本仓库issue中提出。
北京信息科学与技术国家研究中心 Jiawen Deng(清华大学) et,al. 提供的COLDataset。
此数据集为我们提供了无与伦比的帮助。