-
-
Notifications
You must be signed in to change notification settings - Fork 1.4k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
原文档内容和翻译结果重叠,是否存在屏蔽原文档内容选项 #446
Comments
#444 中提到新版本已经有这一功能了,等新版发布吧 |
你这个是扫描件,需要OCR,暂时处理不了。 |
好吧,但是我看翻译页面其实是有翻译后结果的,而且原文档是支持选中文字的。 |
这个PDF是个扫描件,你能复制不是PDF本身能复制,是你的阅读器让你能复制。 |
@hellofinch 其实我们应该是能去掉这个图片内容的hhhhhhh 等我把手上事情做一做之后来看一看这个需求,请耐心等待,感谢。 |
我之前试着删过,没删掉。。。。 |
强,非常期待这个更新!我发现这是老一点的pdf文档的通病。可能年代久远的pdf文件,底层都是图像层而非文字层。我这里也发现了90年代,elsiview的文档都是这个原文图像没有删除。 我也附上了我的翻译了一页的结构,在上述pdf的第五页。可以看到重影。 |
@liuyun16 慢慢蹲吧,这个优先级比较低。得先做其他的。 |
一个权宜的方法:在翻译得到文字/图像重叠的pdf后,用其他工具删除图像层。 我在linux下测试了使用ghostscript,可以得到不错的结果:
|
问题描述
我在使用 pdf2zh 时遇到了一些问题:
Python 3.12.7
pdf2zh v1.8.8
翻译文档时出现了 原文档内容和翻译结果重叠 的现象,导致阅读体验较差
是否存在类似 pdf2zh example.pdf -f xxx 的功能,能够将翻译页面中的原文档内容屏蔽,单纯只保留翻译结果?
测试文档
Chankin - jou.roalof ggcloar materials.pdf
The text was updated successfully, but these errors were encountered: