互联网全文检索系统
本系统可实现文、图、声、像等非结构化信息统一存储与管理,全面支持半结构化数据与关系型数据库,海量数据检索秒级响应,是海量信息资源开发利用的基础性软件。
一、系统简介
进入互联网时代,信息总量在飞速增长。海量信息作为可开发利用的资源,通过汇聚、整理、共享和挖掘,为更多的人利用,产生新的知识,带来新的价值。信息资源管理与利用,成为增强组织机构业务核心能力的手段,日益受到关注,成为信息化建设的重中之重。这些信息大致可分为两类:结构化信息和非结构化信息,其中非结构化信息包括纯文本、电子邮件、办公文档、网页、设计图纸、纸张扫描件,还包括图像图形、音频视频等多媒体信息。据统计,非结构化信息占有整个信息量的80%以上。传统的关系型数据库是面向事务处理和数值分析的,只能解决结构化数据的管理问题。关系数据模型在管理大量非结构化信息上先天不足,尤其在处理复杂、海量的非结构化信息时无法胜任。因此,非结构化信息管理是信息资源管理的核心。
全文检索,简而言之,就是在海量的非结构化信息中,快速、准确地获得用户所需的信息。全文检索按照数据资料的内容而不是结构化特征来实现信息的检索。它能提供快捷的非结构化数据管理工具和强大的数据查询手段,帮助人们进行大量非结构化信息的整理和管理工作,快速方便地查到他们想要的任何信息。全文检索技术和产品是新一代知识管理应用的最基本技术和构件。全文检索已成为新一代非结构化信息管理系统的代名词。
本全文检索系统是对纯文本、超大文本、电子文档、网页、语音、图像、活动影像等非结构化数据进行综合管理的大型软件OA系统
,核心功能是实行非结构化信息的统一存储管理与全文检索,同时提供对包含元数据信息的半结构化数据及关系型数据库的良好支持。系统主要由全文数据库服务器、系统管理员客户端、检索客户端、WEB全文检索系统、二次开发接口等组成。本全文检索系统己经在电子政务、数字图书馆、数字档案馆、电子媒体、电子商务等领域得到了广泛应用,成为国内海量信息管理与服务的基础性软件。二、系统架构
◆标准的多层体系设计,系统由操作系统层、数据层、应用服务器层、表现层逐层构成,层与层之间接口界面清晰。
◆分布式体系架构,支持跨服务器、跨平台分布式内容管理,实现异构数据库联合检索;允许跨255个站点的数据库服务器分布式检索,实现检索响应时间最优化、服务器扩充简易化。
◆支持所有主流的操作系统、应用服务器及Web服务器。
◆支持J2EE及.NET体系架构。
◆32位平台支持64位数据库文件,即支持大于4G的数据库。
三、功能特点
1、完善的数据管理
<1>结构化、非结构化数据的统一管理
◆支持多种结构化数据类型的管理:日期型、数值型、字符型、汉字型。
◆支持包括TEXT、HTML、RTF、MS OFFICE、PDF、S2/PS2/PS等多种格式文件的存储、索引和检索。
◆支持图像、文字、音频、视频等多媒体数据的关联管理与统一检索。
◆支持外部纸介质扫描识别形成的数字纸张、网页及网页自动提取内容的管理和检索。
◆采用领先于自动切分词技术的字元索引策略,支持按词索引、按字索引、字词混合索引。
<2>丰富实用的数据管理工具
◆支持字段内容自动去重,数据批量自动标引。
◆支持基于主题词表的批量分类,对检索数据集批量处理。
◆支持数据库优化重组和分类导航树的管理。
◆支持数据库批量备份、增量备份及逻辑删除、物理删除。
◆支持数据库结构导入、导出及数据库批量恢复。
<3>多语种、多编码管理
◆支持中英文、多语种混合检索。
◆系统内核支持GBK、GB2312/GB18030、BIG5、UTF8编码。
2、强大的用户管理
◆支持独立于操作系统的多级用户权限管理,实现灵活的用户—数据库授权机制,不同等级用户赋予不同权限。
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。