西西河

主题:招募同道愚公录入《国防论》,并求好用的文字识别工具 -- 大洋芋

共:💬11 🌺3 新:
全看树展主题 · 分页首页 上页
/ 1
下页 末页
家园 招募同道愚公录入《国防论》,并求好用的文字识别工具

人多的话我们蚂蚁啃大象,每人一两页,两百页也不算什么。

汉文文本王好一点,但只能读图片,而且速度其实不快,跟直接输入差不多,也就是少动手而已。

家园 中文扫描识别好像清华紫光TH-OCR专业版比较好

外文的可以试试Scansoft出品的Omnipage或Textbridge,好像都不错。

很久以前用过,现在是不是有更好的就不知道了。

家园 能直接操作pdf,识别繁体竖排吗?
家园 pdf应该可以直接识别

竖排没有试过。

家园 回错地方了

看楼上。

家园 不如汉文文本王,同样只能识别图片,及fax?文件

竖排的倒是可以识别,不过文本王识别以后还可以立刻校对,光标点到哪个字就把这个字所对应的图圈起来,同时列出好多种可能的文字供挑选,TH-OCR专业版没有这个功能,只是直接输出到文本,校对起来很麻烦。

家园 可以先用pdf转换工具

比如solidconverterpdf把pdf转换成bmp。然后用汉王文本王ocr.

家园 这个不错,图像放大了好多,识别率也提高了

可是输出的是rtf文件,还得用word打开、一个一个复制图片,多转几道手,有没有直接旧村成一堆图片的?

家园 那个里面可以直接导引输出图像啊。

不需要你一个一个做的。

不知道你用的什么版本,我用的是2.2。你不要选择默认转换,那样出来就是word文件。在转换按钮的选项里,有一个叫使用导引截取图像,里面再选择bmp,就直接输出每页的bmp了。很方便的。你仔细看看。

家园 选项隐藏得够深的,不过选存成BMP一个文件有50MB!

TIFF也一样,还好,可以存成JPG,不到1MB,效果也差不多。

家园 能用就行。

没想到bmp这么夸张。我以前转过pdf的书,每页bmp才100多k。

可惜太忙,不然可以帮你做一点。

全看树展主题 · 分页首页 上页
/ 1
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河