主题:从PDF文件中提取文字的问题。 -- johny
如果你装有Office system 2003的话(应该不会没有吧),可以这样做:(我不知道其它版本的行不行,我用的是2003)
一、把你的文档打印到Microsoft Office Document Image Writer上,这是个Office虚拟出来的打印机。打印出来应当是个.mdi的文档。
二、用Microsoft Document Imaging打开之。在tools-options中选OCR Tab,把OCR Language改成你需要的。然后在tools中选Recognize text using OCR。软件这时候就开始自动扫描图片中的文字,并把图片最后转换成文字。
三、最后一步,tools->Send text to Word。大功告成!
附原来图形PDF和生成的Word纯文本
[SIZE=3]原文档[/SIZE]
[SIZE=3]转换后的纯文本[/SIZE]
图中的文字看不清楚不是因为转换的不好。是由于为了上传,把文件大小限制在100K以内,所以图片质量只好妥协了。
最后Word生成的版面已经失去了原先的样式了,当然文字都已经“抠”下来了。版式已经失去了,需要您去重排。但如果只是想纯粹的copy+paste的话,就不必麻烦去排版了。
如果兄台试验成功的话,以后可以多多为西西贡献好文哦
- 相关回复 上下关系8
也请各位帮个忙 1 丑牛 字61 2005-03-15 22:51:09
没有那么复杂吧? 1 暮春三月草 字152 2005-03-14 12:41:00
他那文件里是图形文字,并不是文本,所以比较复杂。 铁手 字0 2005-03-14 17:52:22
我有简单一法,可以帮兄达到目的,分三步走。
妙绝,在英文windows XP+ 10年1剑 字123 2005-03-14 19:28:59
😉能提取中文的话,那就更加实用了,呵呵 参学 字0 2005-03-15 07:44:16
补充:那个是不是只能识别英文?ACROBAT本身是可以直接识别的 铁手 字144 2005-03-10 19:25:43
可以识别几种语言 参学 字136 2005-03-11 00:59:17