西西河

主题:【问个问题】有什么软件能把pdf转成文档吗? -- 月色溶溶

共:💬43 🌺8
分页树展主题 · 全看首页 上页
/ 3
下页 末页
  • 家园 【问个问题】有什么软件能把pdf转成文档吗?

    要中文繁体简体都可以操作的.

    • 家园 Wondershare PDF Converter

      Wondershare PDF Converter

      软件比较小,可以转.DOC .PPT .TXT .XLS .HTML,转的速度还是挺快的。

    • 家园 adobe acrobat本身就可以另存为各种格式

      包括txt、word,以及各种图片形式的文件。

      要安装adobe acrobat才有这个功能,不是adobe acrobat reader,后者只是常见的简化阅读版。

    • 家园 谢谢大家,我正努力实践呢啊.
    • 家园 pdf2word

      pdf2wordv2.0v3.0网上都可以下到

      效果很不错,前两天刚用了一次,几十页的pdf报告

      可以保留排版,图片自动拷下来

    • 家园 使用PDFFactory,或者上一些网上转换格式网站

      比如http://www.onlinepdf.com。

      可惜有文件大小限制,不然还是挺方便的。

    • 家园 图片用OCR,文字直接选定,复制,粘贴

      我平时工作中有时用到,说点我的经验

      因为pdf可以包含很多种对象(字符,图片,声音等),所以不能一概而论。

      你可以用编辑器,官方的第三方的都可以,打开看看。

      1.如果是把整页文档作为一个图片存储的(这种多半是实体文稿扫描件),需要用OCR软件识别。

      2.如果你能够选中里面的一些字符,那应该是电子格式直接生成的pdf文档,一般是word,excel及其他文字表格编辑软件通过官方工具以及pdf虚拟打印机生成的。

      1中文件会比较大,单页数百k,2中的文件通常较小,几十k。

      对于1.要用OCR软件

      OCR软件,我推荐汉王pdf ocr,我用的是8.1

      感觉很不错,支持表格,支持中英文简繁体混排,识别率还可以

      前段时间刚处理了一个10多页的xx产品表,包括种类,序号,英文名,拉丁名,品种的判断,特性,用途,繁体中文的。

      我是先识别成文本文件(txt),然后粘贴到excel里处理

      字符识别率还是很高的,只是制表符位置,还有空格

      需要在excel里用点查找替换的小技巧处理下

      当然,校对和人工编辑都是难免的必要的,没法唰的一下完成。

      对于2. 可以直接复制粘贴出来

      刚看了子明介绍的Abbyy Finereader,试了一下,果然好

      比我手头上现用的这个版的汉王好很多,在此强烈推荐。我的具体不完全评测可看我的回复zzbzerg:刚刚用我以前的中英文/拉丁文混排表格测试了,花之

      友情提示:汉王pdf ocr功能有限,体格小巧,约50M

      FR功能强大,体积自然.....约300M

      • 家园 之前试过几款OCR,推荐试试ABBYY

        FINEREADER 。汉王也用过,有网友说识别率不错,不过偶用得时候感觉不太好,可能跟扫描的PDF文件的有关

        • 家园 刚刚用我以前的中英文/拉丁文混排表格测试了,花之

          简单测试了一下,就综合性能来说,远高于我所用的汉王版本(8.1.0.3),可能我以前主要把目光放在国内几家厂商了,或者比较依赖一些固定思维而错过了这个不错的软件。

          主要有以下几个方面的对比:

          1.单纯的字符识别率

          这个都不错,就我的测试文档来看,finereader略高一点,

          但这个可能跟具体文档有关,属个体差异。

          2.语言混排识别

          汉王只有简单的中英文,可选模式只有三种(简,简繁,英)。

          FR支持N种语言,甚至包括编程语言。既可以简单的选择语言,又可以在语言管理器里自己个性化配置进行语言组合。这个对于批量长期用户非常有用,比如针对我手上某文件,我自定义配置语言为(简,英,拉丁),以后遇到同类的文件,只要读取配置即可。

          FR支持语言种类多,可自定义,组合模式下,识别率高,完胜。

          3.综合排版分析和输出格式

          汉王有简单的排版分析能力,支持的输出格式基本够用,但细节做的不太好,比如输出的文本不带格式和样式,比如识别的表格直接输出为excel时,多余的换行符,空格,再后期校对处理时十分烦琐。

          FR支持文件格式齐全,并且文字可以带格式输出(字体,字号,黑体,斜体),当然也包括表格的输出。并尽量保持最后输出的格式与原图片的结构相似性。这些虽然是细节,但恰恰是用户的最终需要,极大提高了自动程度,减少了用户的后期工作。

          FR完胜。

          4.设计理念及人性化

          这个其实是是最重要的,放在最后

          尽管我接触这个FR软件只有几个小时,但从安装起,就觉得功能强大而人性化,快速任务,智能错误提示,校对界面等都是从用户完成任务角度出发的,感觉十分贴心。

          可以说FR的设计理念,就是向着自动化的多语言pdf(图片)转电子文档整体解决方案这个目标努力的。

          而汉王似乎没到这个高度,只能算一个还算好用的OCR软件。

          可以说,存在代差,FR完胜。

          这些其实从软件安装后的文件夹大小就能看出,两款软件的目标是不同的。汉王安装完成后50M不到,FR我只选了4种语言,就达到了近350M。

          总结,我的测试仅是针对手头有限的几个印刷体混排文档扫描件

          仅针对所用的两款软件分别是汉王 pdf OCR 8.1.0.3和ABBYY Finereader9.0 企业版,当然,都是花差花差地。

          没有测试手写中文(估计这个汉王应该是强项)和最新版本。

          我只是短时间使用,有局限性,仅供大家参考。


          本帖一共被 1 帖 引用 (帖内工具实现)
      • 家园 如果纯文字的,好办。

        我用foxit reader,可以直接另存为txt文件。

    • 家园 Solid Converter PDF
      • 家园 Solid 速度比较慢,而且有些时候会乱码

        Solid 速度比较慢,而且有些时候会乱码

      • 家园 同意,我也是用这个。破解版的

        不过转换效率不高。

        如果是 doc文档打印出来的pdf文档 转换效率还可以。

        如果是扫描出来的pdf文档。 转换的那个痛苦哦

        一般如果文字少我宁可自己再输入一遍排个版也不难。

        几十页的我还没处理过。

分页树展主题 · 全看首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河