主题：从PDF文件中提取文字的问题。 -- johny

共:💬31 🌺5

老大河待整

全看树展主题 · 分页首页上页下页末页

家园

从PDF文件中提取文字的问题。

我有本超星的书打成了PDF格式，大家都知道，这种PDF文件里的每一页本质上都是图像。

有没有办法用什么软件把上面的文字“拽”下来贴到帖子里面？

否则我就得一个字一个字敲了，前景恐怖，

复从PDF文件中提取文字的问题。

家园

应该可以直接选中然后COPY的啊。

实在不行，用OCR软件来图像文字识别。

拷屏，或者打印以后扫描，再OCR。

复应该可以直接选中然后COPY的啊。

家园

OCR软件可以对PDF文件进行文字识别吗？

如果这个PDF文件中全是图形的话？

复 OCR软件可以对PDF文件进行文字识别吗？

家园

我很早以前用过清华OCR来识别过扫描的文件。

印象中对扫描的分辨率有要求，当时好像是必需150DPI的分辨率以上。

你可以试着扫描，然后OCR。不过我觉得按照OCR 原理，你把PDF文件想法转成图像文件（比如拷屏）应该可以用来OCR。

复我很早以前用过清华OCR来识别过扫描的文件。

家园

总觉得太麻烦。

谢谢铁兄的帮助。

还是希望有个懒点的办法。

复总觉得太麻烦。

家园

怕你没看过这个贴

http://www.cchere.com/article/339043

不过我总觉得如果PDF里面是图形文字的话，估计没有什么别的办法可用。

复怕你没看过这个贴

家园

被您说对了。

PDF里面是图形文字

复被您说对了。

家园

那就OCR呗....现在比较流行的是汉王识别系统

哪怕原文稍微有些倾斜，都可以对付得来的。

去年用扫描仪+汉王作了一本书....《杜鹃蛋》，嘿嘿

复那就OCR呗....现在比较流行的是汉王识别系统

家园

杜鹃蛋是本关于什么的书？

复杜鹃蛋是本关于什么的书？

家园

九十年代初期出版的纪实文学――抓黑客的人

这大概是世界上最早的讲述黑客的文学作品了吧

更何况还是真实的案例，第一人称的记述，精彩绝伦......

俺当年的最好教材，嘿嘿嘿黑。

如果有人要，回头把做好的PDF放出来.

复九十年代初期出版的纪实文学――抓黑客的人

家园

放出来吧，大家都眼巴巴地等着呢

复放出来吧，大家都眼巴巴地等着呢

家园

过四个小时等我下班就放出来好了.....

估计会比较耗时间，这书看着上瘾的，嘿嘿。

复那就OCR呗....现在比较流行的是汉王识别系统

家园

你你你......可真有空啊

复从PDF文件中提取文字的问题。

家园

我有简单一法，可以帮兄达到目的，分三步走。

如果你装有Office system 2003的话（应该不会没有吧），可以这样做：（我不知道其它版本的行不行，我用的是2003）

一、把你的文档打印到Microsoft Office Document Image Writer上，这是个Office虚拟出来的打印机。打印出来应当是个.mdi的文档。

点看全图

二、用Microsoft Document Imaging打开之。在tools-options中选OCR Tab，把OCR Language改成你需要的。然后在tools中选Recognize text using OCR。软件这时候就开始自动扫描图片中的文字，并把图片最后转换成文字。

点看全图

三、最后一步，tools->Send text to Word。大功告成！

附原来图形PDF和生成的Word纯文本

[SIZE=3]原文档[/SIZE]

点看全图

[SIZE=3]转换后的纯文本[/SIZE]

点看全图

图中的文字看不清楚不是因为转换的不好。是由于为了上传，把文件大小限制在100K以内，所以图片质量只好妥协了。

最后Word生成的版面已经失去了原先的样式了，当然文字都已经“抠”下来了。版式已经失去了，需要您去重排。但如果只是想纯粹的copy+paste的话，就不必麻烦去排版了。

如果兄台试验成功的话，以后可以多多为西西贡献好文哦

元宝推荐：Highway,

复放出来吧，大家都眼巴巴地等着呢

家园

给你啦....

http://www.cchere.com/article/343868

全看树展主题 · 分页首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明