智能定向搜索系统
概况
AOSE(Agile Oriented Search Engine)智能定向搜索系统是捷软世纪开发的面向专业客户应用的互联网信息采集搜索系统。根据应用需求,系统依据设定频率定时抓取设定的数据源网站上公开信息,并按主题过滤关键词或者采集样本集自动分类入库;指定站点,指定主题,依据关键字分类,进行定时采集。在指定采集样本集情况下,可以实现基于LSI用户兴趣模型和URL链接结构的预测定向采集。针对不同的网页信息展示格式,可以通过自定义正则表达式模板,进行不同结构的数据属性抽取。例如新闻素材,可以抽取标题、发布时间、采集时间、内容、来源入库。同时对采集参数、采集源、主题分类、过滤关键词进行维护管理,并对采集的素材信息查询、修改、再加工等进行管理。并提供数据属性检索和全文检索两种方式的智能定向搜索功能。通过捷软独有的显式量化概念关联模型,可以智能排序,提高检索结果的语义相关度。
应用
AOSE可广泛应用于:
行业分析
舆情监控
口碑监测
科学研究
垂直搜索
综合门户
行业门户
电子政务
知识管理
企业竞争情报
商业智能系统
信息监控
……
特点
来源广泛:AOSE系统可以采集互联网、WAP网上的任何网页,包括需要登录后才能访问的页面。支持列表页的自动翻页抓取,支持正文页多页合并,支持图片、文件、音视频等文件的抓取,可以抓取静态网页,也可以抓取带多参数的动态网页。
采集精准:独特的采集用户兴趣模型和URL链接结构的预测定向采集,实现了精准采集和信息的样本集分类。
解析便捷:通过客户自定义正则表达式模板,对抓取到页面内容进行解析,得到结构化的数据,比如:新闻标题、作者、来源、正文、联系电话、邮箱、价格、机票班次、分类信息等。
智能检索:对于定向采集信息提供数据属性检索和全文检索两种方式的搜索功能。通过捷软独有的显式量化概念关联模型,对检索结果智
能排序,提高检索结果的语义相关度。应用方便:AOSE网络信息采集系统基于J2EE轻量级框架平台,通过Structs+Spring+Hibernate,支持当前主流数据库,包括:Oracle、SQLServer、MySQL、Informix、Sybase、DB2等,可以跨平台跨数据库,配合其它解决方案一起使用,可以发挥出定向预测采集、自定义解析、结构化数据存储、概念语义检索的强大优势。
系统构架
AOSE主要包括五大部分的内容:
1) 基于LSI用户兴趣模型和URL链接结构的预测定向采集子系统
主要包括网页采集模块、自动分词模块、页面分析模块、网页相似度预测模块、URL调度模块和采集调度管理模块等。
2) 专业结构化网页信息的自定义抽取模板自动匹配子系统
主要包括抽取模板设置,和弹性数据抽取两个模块。
3) 基于显式量化概念关联模型的倒排索引子系统
倒排索引子系统主要包括网页倒排索引模块、网页等级计算模块,显式量化概念关联模型库构造及更新模块等。该系统对采集子系统采集并经预处理过的网页集和网页数据库进行分类索引、计算网页等级等处理,生成新的网页基本信息库、索引库和数据库以供用户查询模块使用。
4) 基于概念关联模型的检索子系统子系统
用户查询子系统负责解释用户输入查询条件,根据用户查询条件查询索引库,按照网页等级的高低分页显示查询结果。该系统主要包括用户查询条件处理模块、查询模块、结果输出模块等。
5) 参数设置监控管理子系统
包括数据源及URL参数、用户名密码,采集参数:多线程管理、频率、时间、代理服务器等,采集状态监控和统计等。
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。