主题：从PDF文件中提取文字的问题。 -- johny

共:💬31 🌺5

我有简单一法，可以帮兄达到目的，分三步走。

如果你装有Office system 2003的话（应该不会没有吧），可以这样做：（我不知道其它版本的行不行，我用的是2003）

一、把你的文档打印到Microsoft Office Document Image Writer上，这是个Office虚拟出来的打印机。打印出来应当是个.mdi的文档。

点看全图

二、用Microsoft Document Imaging打开之。在tools-options中选OCR Tab，把OCR Language改成你需要的。然后在tools中选Recognize text using OCR。软件这时候就开始自动扫描图片中的文字，并把图片最后转换成文字。

点看全图

三、最后一步，tools->Send text to Word。大功告成！

附原来图形PDF和生成的Word纯文本

[SIZE=3]原文档[/SIZE]

点看全图

[SIZE=3]转换后的纯文本[/SIZE]

点看全图

图中的文字看不清楚不是因为转换的不好。是由于为了上传，把文件大小限制在100K以内，所以图片质量只好妥协了。

最后Word生成的版面已经失去了原先的样式了，当然文字都已经“抠”下来了。版式已经失去了，需要您去重排。但如果只是想纯粹的copy+paste的话，就不必麻烦去排版了。

如果兄台试验成功的话，以后可以多多为西西贡献好文哦

元宝推荐：Highway,

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友