协同办公系统主要用于管理用户日常工作中产生的非结构化文本数据,随着应用的深入,数据量急速膨胀,因此,为用户提供快速、准确的数据检索功能是协同办公系统的重要功能之一。万户ezOFFICE协同管理平台针对用户对系统内文档的检索要求,特别提供了全文检索功能。该功能基于独立的全文检索引擎进行设计开发,支持各种文本格式,同时提供开发的数据接口,可以检索系统外数据。
一、系统架构
全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。下图展示了上述全文检索系统的结构与功能。
二、系统优势
大部分的搜索(数据库)引擎都是用B树结构来维护索引,索引的更新会导致大量的IO操作,万户网络在实现中,对此稍微有所改进:不是维护一个索引文件,而是在扩展索引的时候不断创建新的索引文件,然后定期的把这些新的小索引文件合并到原先的大索引中(针对不同的更新策略,批次的大小可以调整),这样在不影响检索的效率的前提下,提高了索引的效率。
三、在ezOFFICE中的应用
全文检索引擎作为系统提供的底层公用组件,系统中各模块都可通过接口调用。文档、信息、流程、公文、邮件、论坛等模块的各类格式的文本数据通过索引核心生成索引文件,用户在前台通过WEB查询接口对系统内数据实现全文检索服务。