加载中 ...
首页 > 软件介绍 > 网站建设 正文

智能互联网信息采集系统

2019-03-24 16:03:50 来源:沈阳软件公司 作者:沈阳软件开发

网络信息采集系统

本系统集成网页搜索、内容智能提取与过滤、自动分类、自动去重等技术,实现对互联网信息采集、过滤、提取与批量上载的自动化与一体化。

一、系统简介

新闻媒体、政府部门、大型企事业单位纷纷通过互联网技术搭建网络信息收集平台:新闻媒体需要获取大量的互联网上新闻资料,充实新闻资料库;政府机关需要收集与自身业务相关的文献资料,提升办公与决策效率;大型企事业单位需要快速获取行业宏观环境、政策动态与竞争对手信息…… 

天宇智能互联网信息采集系统(CGSEEK)集成了网页搜索、内容智能提取与过滤、自动分类、自动去重等技术,实现了对互联网信息采集、过滤、提取与批量上载的自动化与一体化。 

二、系统结构

三、系统主要功能

◆ 支持各种标准格式信息资源的采集,如HTML页面、文本信息、表格、图片、声音、视频等。

◆ 实现对网页与内联图片的统一采集。

◆ 支持繁体页面(BIG5码)的采集,并自动转换为标准的简体码(GB码),支持Unicode码集。 

◆ 支持由程序自动生成的页面内容的采集,如由JavaScript生成的页面。

◆ 能方便将抓取网站上后台数据库的内容(JSP,ASP,CGI),和抓取需要通过用户身份校验的网站内容。

◆ 支持单篇网页及网站历史数据的批量下载。

◆ 支持各种标准格式信息资源的采集,如HTML页面、文本信息、表格、图片、声音、视频等。

◆ 实现对网页与内联图片的统一采集。

◆ 支持繁体页面(BIG5码)的采集,并自动转换为标准的简体码(GB码),支持Unicode码集。

◆ 支持由程序自动生成的页面内容的采集,如由JavaScript生成的页面。

◆ 能方便将抓取网站上后台数据库的内容(JSP,ASP,CGI),和抓取需要通过用户身份校验的网站内容。

◆ 支持单篇网页及网站历史数据的批量下载。

◆ 支持各种标准格式信息资源的采集,如HTML页面、文本信息、表格、图片、声音、视频等。

◆ 实现对网页与内联图片的统一采集。

◆ 支持繁体页面(BIG5码)的采集,并自动转换为标准的简体码(GB码),支持Unicode码集。

◆ 支持由程序自动生成的页面内容的采集,如由JavaScript生成的页面。

◆ 能方便将抓取网站上后台数据库的内容(JSP,ASP,CGI),和抓ERP系统

<a href=http://www.hvihi.com target=_blank class=infotextkey>沈阳<a href=http://www.hvihi.com target=_blank class=infotextkey>软件开发</a></a>,<a href=http://www.hvihi.com target=_blank class=infotextkey>沈阳<a href=http://www.hvihi.com target=_blank class=infotextkey>软件公司</a></a>

取需要通过用户身份校验的网站内容。

◆ 支持单篇网页及网站历史数据的批量下载。 

信息利用 

◆ 可以将采集下来的网页信息放置到本地机器指定的某个文件夹下,进行利用。 

◆ 系统支持采集的文本内容批量上载到天宇CGRS全文数据库中,可以利用天宇采编发系统及全文检索系统进行信息采编、审核、发布与全文检索等利用。

◆ 经过智能提取的文本内容,可以上载到SQL Server等主流的关系型数据库中,充实资料库,也可以利用第三方应用系统对信息进行采编、发布与检索等应用。

四、系统特点

◆网页采集内容全面 

适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页采集内容的完整性在99%以上。 

◆ 内容准确度高 

能方便地将网页中的信息提取出来,如日期,标题,作者,栏目等内容;过滤网页中的无用信息。

◆ 精确定义采集范围 

精确描述需要采集的网站范围,可以精确到整个网站、特定栏目、特定页面。 

◆ 使用方便,自动化程度高 

系统参数设置简单,一次设置多次使用,修改方便、直观、快捷。

◆ 信息采集快 

系统通过多线程处理技术,可以同时汇海多个搜索器,快速高效地对目标站点或栏目进行信息采集。

五、系统性能

◆ 采集速度:每分钟采集数百个最新目标页面(与机器性能及网络带宽有关); 

◆ 处理速度:每分钟提取、过滤与上载数百个网页; 

◆ 自动分类:页面内容自动分类准确率90%以上; 

◆ 提取效率:页面内容(标题、日期、作者、正文等)准确提取率达99%以上。

“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同

其观点或证实其内容的真实性。