开普互联互联网信息采集系统
产品概述:
开普互联针对当前政府及企业在内容管理、知识管理和信息资源开发利用等方面的新要求,推出互联网信息采集平台。平台支持实现对Web页面、各种常见数据文件及数据库内容进行增量式的信息采集,并对采集到的互联网信息进行自动分类、过滤、存储、和发布,是内容管理发布系统的素材库,能够极大的提升网站内容的多样性和时效性。
产品架构图:
产品特色:
极强的采集能力
系统的扫描间隔最小可以设置成1分钟,单机即可支持数百网站信息的采集工作,同时支持单机多线程,多机分布式的信息集。
增量式的信息采集模式
采用增量式的信息采集模式,采集子系统根据特有的扫描技术可以不用下载全部网页即可判断网页信息是否已经被抓取,从而加快采集速度,减少带宽占用。
支持内容过滤
通过网页结构分析的方法确定新闻报道的正文、图片以及表格内容,自动去除广告等与新闻报道本身无关的信息。
支持多种网页类型
采集子系统能够对多种网页类型的信息进行采集,还能够采集由JavaScript生成的动态超链信息。
支持对采集信息进行分类和过滤
系统将采集到的信息按规则自动分类,同一分类可设置多条规则,支持关键词逻辑表达式。
应用场景:
· 政府门户网站
· 企业门户网站
· 行业门户网站
· 信息管理与服务系统
· 知识管理系统
· 信息安全检查、过滤与监控
典型用户:
· 中央统战部门户网站
· 中纪委内网软件开发
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。