中文 En
一个使用 GOT-OCR2 模型进行本地光学字符识别(OCR)的 Windows 桌面应用程序。该应用程序提供了一个图形界面,用于将包含文本的图像转换为可编辑的格式化文本。
以下是应用程序界面的截图,顶部是图像预览,中间是 OCR 提取的 markdown/latex 文本,下方是渲染后的文本显示。
- 加载和预览图像
- 自动图像调整大小和预处理
- 使用 GOT-OCR2 模型进行 OCR 处理
- 格式化文本输出(Markdown 和 Latex)
- HTML 格式化输出预览
- GPU 加速支持
- Windows 10/11 (64位)
- .NET Framework 4.8
- Visual Studio 2022(用于从源代码构建)
- 支持 Vulkan 驱动的 GPU
- 从 GitHub Releases 下载最新版本
- 启动 got-win.exe 应用程序
- 点击 "Load Image" 选择图像文件
- 应用程序将会:
- 显示原始图像
- 显示预处理后的版本
- 使用 OCR 处理图像
- 在文本框中查看 OCR 结果
- 使用 "Preview" 按钮查看格式化输出
- 勾选 "Formatted Output" 查看 Markdown 格式化
- 克隆仓库
- 安装 Vulkan SDK
- 从 release 文件 获取以下文件并放入
got-win/
目录:libocr.dll
,encoder_single.onnx
,got_decoder-q4_k_m.gguf
- 在 Visual Studio 2022 中打开
got-win.sln
- 恢复 NuGet 包
- 构建解决方案(x64 平台)
cd got-win
nuget restore
msbuild got-win.sln /p:Configuration=Release /p:Platform=x64
- 确保模型文件位于正确位置
- 如果使用 GPU 加速,请验证 GPU 驱动程序是否为最新版本
- 检查控制台输出以查看错误信息
- GOT-OCR 模型
- MosRat 的 got.cpp