教学论文-浅谈校园网多数据源信息检索系统的设计与实现的论文.docx
《教学论文-浅谈校园网多数据源信息检索系统的设计与实现的论文.docx》由会员分享,可在线阅读,更多相关《教学论文-浅谈校园网多数据源信息检索系统的设计与实现的论文.docx(10页珍藏版)》请在启牛文库网上搜索。
1、浅谈校园网多数据源信息检索系统的设计与实现的论文论文关键词:信息集成异构数据dinuthluene 论文摘要:高校校园网信息资源数量巨大,各信息发布系统的相互独立及多种异构数据源的使用对在校园网范围内进行统一的信息检索设置了障碍,系统着重解决由非结构化文本数据和结构化数据库数据形成的多数据源的集成与整合问题,在nuth搜索引擎基础上利用luene接口对多种源数据建立索引,构建多数据源全文信息检索平台,从而有效地实现全网信息检索并提高检索速度和精度。 一、引言 随着校园信息化进程的不断深入,校园网上信息资源的数量迅速膨胀,各种相互独立的信息发布系统在提高效率的同时,也为校园网范围内统一的信息检索
2、设置了障碍,校园网信息资源主要包括两类数据:一类是非结构化文本数据,以网页文件、文本文件、电子邮件等形式存储在多个信息系统当中:另一类是结构化数据,以数据记录的形式存储在不同的异构数据库之中。由于各独立信息系统间没有相互连接的渠道,快速检索校园网内部信息存在着较大困难。如何设计一个稳定而高效的架构,能够对多种信息数据源进行集成与整合,实现全网范围内全文信息检索成为校园信息化过程中一个重要研究课题。 校园网信息检索技术大体可分为三个发展阶段:第一阶段是基于数据库查询方式的结构化数据检索,应用于信息发布系统内部的检索功能,通常是通过匹配标题、作者和摘要等字段来实现信息检索。由于受到数据库性能、检索
3、效率等因素影响,不能实现基于匹配正文内容的全文检索,因此该阶段检索方式从检索范围到检索性能及效果都并不能完全满足现阶段用户的需要:第二阶段是将基于互联网的搜索引擎技术应用于校园网,构建校园网信息检索平台。 主要采用开源lueene提供的全文检索功能和基于luene索引管理、存储和检索技术之上的nuth搜索引擎技术。这两种方式能够实现对非结构化文本数据和结构化数据库数据的检索,应用在网站站内索引、企业内部文档管理及知识管理系统等多方面,对应用系统内部全文信息检索取得了较好的效果,但要实现校园网全网范围内多系统综合信息检索还有待进一步完善与改进:当前校园网信息检索技术已经发展到多系统多数据源信息检
4、索阶段,通过多种方式将各种数据源统一建立索引进行检索,对于非结构化文本的eb页面信息采用网络爬虫方式获取数据,对于结构化文档数据源可通过luene接口和nuth插件机制与第三方类库相结合来进行文档分析处理,对于数据库资源通过luene数据库访问接口来获取数据记录并建立索引。目前校园网信息检索平台大多是以检索功能为核心通过上述方式与多数据源集成的辐射状架构,该种架构虽可实现全网多数据源检索,但检索平台与各应用系统耦合度高,系统整体稳定性和可扩展性较差,数据安全和数据质量较低。 针对上述问题,本系统将数据采集和数据集成作为平台整体架构的基础,将rale数据集成工具di用于对多数据源结构化数据的抽取
5、、转换和处理,从而提供一个统一的全局共享数据源,对非结构化文本数据提供对rd、pdf、ppt及xl等多种格式化文档解析的支持、以上述工作为基础,系统将分散分布、非结构化、异构的信息资源统一整合,提供给校园网用户统一的全文信息检索平台。 二、系统体系结构 多数据源校园网信息检索系统分为数据采集层和信息检索层两层体系架构,数据采集层以rale全局数据库为核心向下通过di集成各异构数据库数据,并通过网络爬虫和非结构化文本数据解析来实现多数据源数据采集,向上通过数据库接口为上层应用提供数据:信息检索层采用以lueene为基础的nuth搜索引擎实现信息索引和检索。系统共包括异构数据库集成、异构文档解析、
6、信息分类模块、信息索引模块、信息检索模块和系统管理模块六部分,系统体系结构如图1所示。 校园网信息检索技术并不是简单地将开源搜索引擎技术应用于校园网,而是针对校园网内部数据特点设计相应的解决方案。异构数据库集成模块从系统底层做好结构化数据库数据的高效获取和有效组织。校园网内信息发布以eb网站为主要方式,对其进行信息检索一是采用网络爬虫方式进行数据采集:二是通过luene数据库接口与各异构数据库相连采集数据,第一种方式虽然操作简单,但在数据采集质量和深度上都有所不足,并没有充分利用校园网信息数据存储的特点:第二种方式虽然在数据来源上有所改进,但在系统的稳定性、耦合程度和可扩展性上都存在不足,从各
7、异构数据库中获取的数据无法进一步加工处理,从而导致对上层应用的支持有限。校园网内数据虽然表现为eb网页等非结构化文本形式,但其数据来源大都存储在结构化数据库中。通过获取对各业务异构数据库的查询管理权限,系统将rale数据集成工具di代替网络爬虫和数据库访问接口,从底层实现对多个异构数据库的统一管理,使系统具有更加稳定和高效的数据来源。异构文档解析模块实现对pdf、ffie等文档的解析功能,通过插件机制提取各种格式化文档的文本信息进行处理。信息分类模块按照信息来源的部门、发布时间等提供分类信息检索,实现信息的高级检索功能。信息索引模块对多种数据源数据建立索引,并进行索引优化以减少索引文件的数量,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教学 论文 浅谈 校园网 多数 信息 检索系统 设计 实现