主题：从PDF文件中提取文字的问题。 -- johny

共:💬31 🌺5

信息技术

全看树展主题 · 分页首页上页下页末页

复给你啦....

家园

收到，谢谢。

大家一起学习研究啊，呵呵。

复我有简单一法，可以帮兄达到目的，分三步走。

家园

强贴，加精加精啊。

虽然我只有OFFICE 2000，还是要顶一下的。

复给你啦....

家园

【bug report】为什么我打开后里面全是空白呢?

我用的是Acrobat Reader 6.01

复我有简单一法，可以帮兄达到目的，分三步走。

家园

补充：那个是不是只能识别英文？ACROBAT本身是可以直接识别的

是acrobat不是 READER。

在TOOLS下面有个PAPER CAPTURE的功能，可以对图形文字进行识别，并且基本上保持了原来的格式。

但是我用的，只能识别英文。

复补充：那个是不是只能识别英文？ACROBAT本身是可以直接识别的

家园

这个功能好，虽说只能对英文用。

不知道有没有人做插件？

复【bug report】为什么我打开后里面全是空白呢?

家园

显示空白？原因自然是没有装中文字体呗.....

启动reader 6的时候，难道没有提示让你下载什么东西么？如果有，那就是了，你让他下载好了（10MB左右）.....

实在不行，改装7.0也可以，打开pDF的时候，肯定会提示你要下载中文字体部件的，呵呵呵

复补充：那个是不是只能识别英文？ACROBAT本身是可以直接识别的

家园

可以识别几种语言

中文，英文，法文，西班牙文，还有几种记不得了。

不过我目前只试过用它去识别英文，还没机会尝试去识别其它语言。所以效果如果就不得而知了。

刚去查了一下，不支持中文。

在我的电脑上是支持的

不过大概需要把默认的的语言设成中文吧。

点看全图

您看看如果设置成这样了，还不行的话，可能要把Windows的默认语言设成中文，还有就是要安装东亚语言包。

复刚去查了一下，不支持中文。

家园

刚才去Perform了一下

看来真的是不行。

虽然有中文的选项，但无法完成扫描。

复应该可以直接选中然后COPY的啊。

家园

不用这么复杂吧！？

Acrobat可以把PDF文件另存为其他图形格式，比如TIFF或JPG什么的，然后再OCR就行了。

复从PDF文件中提取文字的问题。

家园

没有那么复杂吧？

没有那么复杂啊！可以载一个叫Scansoft PDF Converter 的软件，专门把PDF文件转化成word文件。而且是和Microsoft Office开发小组联合开发的，和office兼容性不错。

复没有那么复杂吧？

家园

他那文件里是图形文字，并不是文本，所以比较复杂。

复我有简单一法，可以帮兄达到目的，分三步走。

家园

妙绝，在英文windows XP+

英文acrobat reader 6 + 中文office2003下提取中文成功。

每次打印都看到那个东东，才知道能干啥。

还有什么绝招，望高手赐教。

复妙绝，在英文windows XP+

家园

能提取中文的话，那就更加实用了，呵呵

全看树展主题 · 分页首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明