森特搜索引擎
森特搜索引擎是沈阳森特信息技术有限公司开发的一套以Internet信息抓取为目的的跨平台软件,主要用于指定网络信息的抓取,实现在用户自定义的规则下,自动从互联网上的http服务器(或其它服务器)上抓取指定信息,并自动从网页中分析解析出信息并整理存为数据库格式。
森特搜索引擎――信息抓取系统 的工作流程分为四个阶段:
◎ 信息规划:设定信息来源,确立信息获取任务;
◎ 信息采集:从互联网抓取网页信息,并进行标准化分析处理;
◎ 信息分析:对采集的信息进行数据挖掘,包括自动分类、自动提取关键词和自动消重;
存储下来。森特搜索引擎-信息抓取系统主要包括信息采集、信息检索过滤和信息发布三大模块,主要有如下的功能特色:
◆对目标网站进行信息自动抓取,支持各种标准格式信息资源的采集,如 HTML页面、文本信息、图片等。
◆抓取速度快,系统采用多线程并发搜索技术,用户可根据需要设置并发线程的数目。
◆搜集到的信息可以按照不同的分类方式,并且保留原文链接。用户可以按照日期、来源、标题进行检索、浏览。
◆ 可以对抓取的信息定义关键字,对网页内容进行过滤,并可进行组合检索和二次检索,检索到的信息可以进行数据批量导出。
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。