主题:从PDF文件中提取文字的问题。 -- johny
共:💬31 🌺5
复 给你啦....
大家一起学习研究啊,呵呵。
虽然我只有OFFICE 2000,还是要顶一下的。
复 给你啦....
我用的是Acrobat Reader 6.01
是acrobat不是 READER。
在TOOLS下面有个PAPER CAPTURE的功能,可以对图形文字进行识别,并且基本上保持了原来的格式。
但是我用的,只能识别英文。
不知道有没有人做插件?
启动reader 6的时候,难道没有提示让你下载什么东西么?如果有,那就是了,你让他下载好了(10MB左右).....
实在不行,改装7.0也可以,打开pDF的时候,肯定会提示你要下载中文字体部件的,呵呵呵
中文,英文,法文,西班牙文,还有几种记不得了。
不过我目前只试过用它去识别英文,还没机会尝试去识别其它语言。所以效果如果就不得而知了。
复 可以识别几种语言
不过大概需要把默认的的语言设成中文吧。
您看看如果设置成这样了,还不行的话,可能要把Windows的默认语言设成中文,还有就是要安装东亚语言包。
看来真的是不行。
虽然有中文的选项,但无法完成扫描。
Acrobat可以把PDF文件另存为其他图形格式,比如TIFF或JPG什么的,然后再OCR就行了。
没有那么复杂啊!可以载一个叫Scansoft PDF Converter 的软件,专门把PDF文件转化成word文件。而且是和Microsoft Office开发小组联合开发的,和office兼容性不错。
复 没有那么复杂吧?
英文acrobat reader 6 + 中文office2003下提取中文成功。
每次打印都看到那个东东,才知道能干啥。
还有什么绝招,望高手赐教。