Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

文档站 ChatBot Roadmap, 含候选方案,可点赞投票 #5778

Open
21 tasks
windsonsea opened this issue Oct 16, 2024 · 10 comments
Open
21 tasks

文档站 ChatBot Roadmap, 含候选方案,可点赞投票 #5778

windsonsea opened this issue Oct 16, 2024 · 10 comments
Assignees
Labels
enhancement a feature to enhance DCE

Comments

@windsonsea
Copy link
Member

windsonsea commented Oct 16, 2024

排期 Schedule

目前大家倾向于使用自己的产品 d.run/dak,争取 11 月上线 ChatBot。

参见 PR #5969预览

Roadmap

  • 文档站的数据格式化:
    • 去除所有图片
    • 中英文独立处理
    • 数据格式要符合要求(利用 OpenAI 做数据提取)
  • 选一个模型
  • 模型训练/微调,加入所有文档数据
  • 模型评分,准备一个测试数据集
  • 将模型部署为推理服务
  • 挂接到文档站
    • ChatBot 前端页面
    • 后端加一个聊天泡泡

后续维护

  • 新增内容持续更新,与网站内容保持同步
  • 回复的问题跳转到文档页,或添加链接
  • 提高回答的准确性,持续微调
  • 收集用户数据,整理常见问题,完善对应页面
@windsonsea windsonsea added the enhancement a feature to enhance DCE label Oct 16, 2024

This comment was marked as spam.

@samzong samzong self-assigned this Oct 17, 2024
@windsonsea
Copy link
Member Author

windsonsea commented Oct 30, 2024

方案一:扣子

https://www.coze.cn/

  • 全 UI 无代码操作,基本上拎包入住,没门槛
  • 给一个网址就会自己抓取、拆分数据
  • 可设置 1-7 天自动同步网站数据

参阅 PR #5866预览

image

@windsonsea
Copy link
Member Author

方案二:chatwith

https://chatwith.tools/

  • Google 排名靠前的 website chatbot
  • 对海外用户友好,全英文操作

参见 PR #5776预览

image

@windsonsea
Copy link
Member Author

windsonsea commented Oct 30, 2024

方案三:d.run/dak

https://console.d.run/dak/

  • 自己的产品自主可控,打磨使用可促进完善
  • 需要手动拆分数据(2000+ markdown 文件)
  • 智能体后期怎么与网站同步?
  • 需要前端 Web 参与,或增加一个 iframe 插件

参见 PR #5870预览

image

@windsonsea windsonsea changed the title 文档站新增 ChatBot Roadmap 文档站 ChatBot Roadmap, 含候选方案,可点赞投票 Oct 30, 2024
@windsonsea
Copy link
Member Author

windsonsea commented Oct 30, 2024

方案三的补充:借助一些工具 aitools

整理文件时,手工对文件进行打标签是无法避免的,打好标签后,可以直接运行脚本将word文档或者xlsx文档直接转出成标准的zip格式导入智能体应用。

aitools 的安装方式之一:

# 实际使用镜像方式,注意 linux 适用 4.1 版本,如果是 mac 请使用 3.1 版本
docker run -p 8888:8888 -e JUPYTER_TOKEN=[请替换成你需要的token] [registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1](http://registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1)

image

说明:

  • 需要有一定后端基础,用镜像等方式部署工具
  • 借助 python 等脚本批量处理 markdown、docx、xlsx
  • 然后喂给 d.run 知识库
  • 同样问题:怎么能跟网站保持同步?每次都手动吗?

@samzong
Copy link
Member

samzong commented Oct 30, 2024

  1. 方案三考虑也迁入到 dce 内,做个效果,先简单手工做几个文档
  2. 可以考虑从整体使用过程,和咱们需要的功能做个横向对比,like 参数表

@Zhuzhenghao
Copy link
Collaborator

方案三:d.run/dak

https://console.d.run/dak/

  • 自己的产品自主可控,打磨使用可促进完善
  • 需要手动拆分数据(2000+ markdown 文件)
  • 智能体后期怎么与网站同步?
  • 需要前端 Web 参与,或增加一个 iframe 插件

参见预览

image

  1. 数据可以使用粗略的分片,一个文件就是一个分片,使用上下文 128K 的模型,先出一个MVP
  2. 文档站更新后,需要更新语料库

PS:可以打磨公司产品,积累场景解决方案
image

@Zhuzhenghao
Copy link
Collaborator

方案三的补充:借助一些工具 aitools

整理文件时,手工对文件进行打标签是无法避免的,打好标签后,可以直接运行脚本将word文档或者xlsx文档直接转出成标准的zip格式导入智能体应用。

aitools 的安装方式之一:

# 实际使用镜像方式,注意 linux 适用 4.1 版本,如果是 mac 请使用 3.1 版本
docker run -p 8888:8888 -e JUPYTER_TOKEN=[请替换成你需要的token] [registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1](http://registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1)

image

说明:

  • 需要有一定后端基础,用镜像等方式部署工具
  • 借助 python 等脚本批量处理 markdown、docx、xlsx
  • 然后喂给 d.run 知识库
  • 同样问题:怎么能跟网站保持同步?每次都手动吗?

线上已经部署好这个工具,https://console.d.run/ai-tools/lab

@Zhuzhenghao
Copy link
Collaborator

  • 去除所有图片

为啥要去除图片?

@samzong
Copy link
Member

samzong commented Oct 30, 2024

  • 去除所有图片

为啥要去除图片?

这个是我想的,问答最后还是引流到对应的文档即可,不需要图片。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement a feature to enhance DCE
Projects
None yet
Development

No branches or pull requests

3 participants