主题:从PDF文件中提取文字的问题。 -- johny
我有本超星的书打成了PDF格式,大家都知道,这种PDF文件里的每一页本质上都是图像。
有没有办法用什么软件把上面的文字“拽”下来贴到帖子里面?
否则我就得一个字一个字敲了,前景恐怖,
实在不行,用OCR软件来图像文字识别。
拷屏,或者打印以后扫描,再OCR。
如果这个PDF文件中全是图形的话?
印象中对扫描的分辨率有要求,当时好像是必需150DPI的分辨率以上。
你可以试着扫描,然后OCR。不过我觉得按照OCR 原理,你把PDF文件想法转成图像文件(比如拷屏)应该可以用来OCR。
谢谢铁兄的帮助。
还是希望有个懒点的办法。
http://www.cchere.com/article/339043
不过我总觉得如果PDF里面是图形文字的话,估计没有什么别的办法可用。
PDF里面是图形文字
哪怕原文稍微有些倾斜,都可以对付得来的。
去年用扫描仪+汉王作了一本书....《杜鹃蛋》,嘿嘿
这大概是世界上最早的讲述黑客的文学作品了吧
更何况还是真实的案例,第一人称的记述,精彩绝伦......
俺当年的最好教材,嘿嘿嘿黑。
如果有人要,回头把做好的PDF放出来.
估计会比较耗时间,这书看着上瘾的,嘿嘿。
如果你装有Office system 2003的话(应该不会没有吧),可以这样做:(我不知道其它版本的行不行,我用的是2003)
一、把你的文档打印到Microsoft Office Document Image Writer上,这是个Office虚拟出来的打印机。打印出来应当是个.mdi的文档。
二、用Microsoft Document Imaging打开之。在tools-options中选OCR Tab,把OCR Language改成你需要的。然后在tools中选Recognize text using OCR。软件这时候就开始自动扫描图片中的文字,并把图片最后转换成文字。
三、最后一步,tools->Send text to Word。大功告成!
附原来图形PDF和生成的Word纯文本
[SIZE=3]原文档[/SIZE]
[SIZE=3]转换后的纯文本[/SIZE]
图中的文字看不清楚不是因为转换的不好。是由于为了上传,把文件大小限制在100K以内,所以图片质量只好妥协了。
最后Word生成的版面已经失去了原先的样式了,当然文字都已经“抠”下来了。版式已经失去了,需要您去重排。但如果只是想纯粹的copy+paste的话,就不必麻烦去排版了。
如果兄台试验成功的话,以后可以多多为西西贡献好文哦
http://www.cchere.com/article/343868