完美告白东北女孩求婚:扫描文档的全文检索

来源:百度文库 编辑:偶看新闻 时间:2024/05/02 00:52:51

扫描文档的全文检索

必备软件:

1.     THOCR2003录入工厂或paperport9中文版(正式或试用版均可);

2.     adobe acrobat7中文版(不是adobe reader

资料多了查找起来真麻烦,有时为了查找一个数据,明明知道自己的电脑里有,费了一上午也找不到。现在好了,有了百度、google硬盘搜索工具,很是方便,但是用了一段时间就发现,百度、google其实并不能实现真正的全文检索,他们只是提取了每个文件的前几页文字加入数据库,搜索的只是每个文件的前几页,特别是对于大量的扫描文档,最多实现文件名的检索,无法实现文件内容检索,无法满足很多技术人员工作中的要求。

本人在大量的资料整理中逐渐摸索出了一个比较好的解决办法,这就要采用一种双层PDF的文件格式,这个PDF文件是双层的,上层是原始图像,下层是识别结果,这样可以100%保留原始版面效果,并且支持选择/复制/检索等功能。具体使用方法:

1.             制作双层PDF:如果采用paperport9中文版,制作过程相当简单,打开paperport9,在paperport9的窗口下,在需要转换的文档,不管是扫描的图像格式,还是已经扫描制作好的PDF格式,只要按右键另存为双层PDF就可以了。注意:paperport9中文版没有版面分析功能,对扫描的图像质量要求比较高,如果质量不好,就会出现半截图像的问题。如果用THOCR2003,就按照通常的文字识别软件的操作方法,识别每页图像,输出为双层PDF

2.             建立索引文件:对制作好的双层PDF文件分类存档,运行adobe acrobat7中文版,选择编辑下的首选项,设定catalog选项,如果需要把索引文件与资料文档分开保存,请将“允许在不同驱动器上构建索引”打钩,如果需要制作成全文检索光盘,请将“在文件加上强制使用ISO9660规范”选项打钩;设定search选项,将总是使用高级搜索选项打钩。选择高级菜单下的编录,就弹出新建索引的窗口,按照分类分别建立索引文件,最好将索引文件与资料文件分开保存。

3.             进行全文检索:打开adobe reader或者adobe acrobat,选择搜索,高级搜索,搜索范围中添加已经建立的索引文件,需要进行搜索的分类打钩,输入关键词,搜索,就可以了,可以搜索到每一个文档的每一页,效果非常好,速度也很快。其实paperport9也具备全文检索功能,只是他的全文检索效果比较差,速度慢,特别是pdf文件的阅读功能还有很多不足,不用也罢。

结束语,本文只是实现的对pdf文档的真正全文检索,但是对于其他格式wordexcelpptwps等文档的全文检索,目前还没有发现一款比较理想的产品,期待广大读者献计献策。