Skip to content

Conversation

@begoniezhao
Copy link
Collaborator

@begoniezhao begoniezhao commented Nov 14, 2025

Pull Request

重构一下docreader

描述 (Description)

  1. 使用 uv 进行依赖管理和启动服务,docker做相应适配
  2. 支持 pylintrc 优化 py server 错误提示与日志
  3. 规范化 py 文件导入路径
  4. 减少 try catch 导致函数复杂度过高,影响理解
  5. doc 文件默认解析:转化为 docx,使用 docx 解析
  6. docx 文件默认解析:使用 markitdown 解析,MIT 协议并且速度快
  7. markdown 支持 base64 图片
  8. 支持 mineru 解析 pdf 文件
  9. 支持本地图片存储
  10. 新增 pb2.pyi 文件增强 proto 的代码提示
  11. 重构 chunk 的拆分和合并逻辑,支持保留数学公式,图片,链接,表头,代码头
  12. 修复表格拆分后缺失表头的情况
  13. 修复临时文件未能及时删除

变更类型 (Type of Change)

  • 🐛 Bug 修复 (Bug fix)
  • ✨ 新功能 (New feature)
  • 💥 破坏性变更 (Breaking change)
  • 📚 文档更新 (Documentation update)
  • 🎨 代码重构 (Code refactoring)
  • ⚡ 性能优化 (Performance improvement)
  • 🧪 测试相关 (Test related)
  • 🔧 配置变更 (Configuration change)
  • 🐳 Docker 相关 (Docker related)
  • 🎨 前端 UI/UX (Frontend UI/UX)

影响范围 (Scope)

  • 后端 API (Backend API)
  • 前端界面 (Frontend UI)
  • 数据库 (Database)
  • 文档解析服务 (Document Reader Service)
  • MCP 服务器 (MCP Server)
  • Docker 配置 (Docker Configuration)
  • 配置文件 (Configuration)
  • 其他 (Other):

测试 (Testing)

  • 单元测试 (Unit tests)
  • 集成测试 (Integration tests)
  • 手动测试 (Manual testing)
  • 前端测试 (Frontend testing)
  • API 测试 (API testing)

测试步骤 (Test Steps)

检查清单 (Checklist)

  • 代码遵循项目的编码规范
  • 已进行自我代码审查
  • 代码变更已添加适当的注释
  • 相关文档已更新
  • 变更不会产生新的警告
  • 已添加测试用例证明修复有效或功能正常
  • 新功能和变更已更新到相关文档
  • 破坏性变更已在描述中明确说明

相关 Issue

Fixes #

截图/录屏 (Screenshots/Recordings)

数据库迁移 (Database Migration)

  • 需要数据库迁移
  • 不需要数据库迁移

配置变更 (Configuration Changes)

部署说明 (Deployment Notes)

其他信息 (Additional Information)

移除日志设置与冗余代码,优化导入、类型提示及OCR后端管理
统一调整各文件模块导入路径为绝对导入
调整导入路径,移除部分导入,优化日志及注释
升级文档解析器为 Docx2Parser,优化超时与图片处理逻辑
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant