NetStar信息采集系统
本系统主要通过多台计算机对网络现存的各大搜索引擎来采集数据,并提供对本系统中所有采集信息的集中统一的管理和控制。从而实现抓取、处理、存储、查询、编辑、统计,以及系统设置维护等功能。因此为实现上述功能,本系统将采用分布式系统模式开发,程序分为两部分:服务器端程序与客户端程序。而服务器端程序主要用来与客户端进行网络通讯,建立链接,实现数据包的发送与接收,从而达到对客户端程序分配与管理采集任务的功能,以及对关键词进行排列优化。其包括三大模块:网络通讯、排列优化和系统设置;而客户端程序主要用于辞典与关键字的管理、网络通讯和采集信息,并对采集的数据信息进行管理,其包括八大模块:辞典管理、关键词管理、采集信息管理、统计信息、导出文件管理、信息采集、网络通讯、上网代理服务器。其系统功能结构图如下:
功能描述
→ 服务器端程序
用户登陆
网络通讯
排列优化
系统环境配置
→ 客户端程序
用户登陆
辞典管理:此模块主要提供对辞典信息的分类管理。
关键词管理:此模块主要提供对关键词的归属关系的管理。
网络通讯:主要通过socket来实现服务器端程序与客户端程序之间数据通讯。
信息采集:
信息采集子模块:
1).通过辞典管理模块与关键字管理模块预先建立的辞典与关键词,以及它们之间的关联,系统将根据系统设置模块的配置,自动在特定的时间段内依次通过选择的搜索引擎来对关键词进行扫描,并采集相关的网络信息到本地。
2).为了保证信息的抓取范围,各引擎的搜索模式均按搜索所有网页进行处理。
信息处理子模块:
1).对采集的结果信息进行去除重复、空白网页、死链接等操作。
信息存储子模块:
1).系统中的结构化信息存储。
2).下载下来的临时网页,将通过系统设置管理模块中设定的本地文件存放主路径来获取保存主路径。
采集信息管理:
此模块主要是通过集成现存的各大搜索引擎来实现对网络信息的采集、分类、管理等目的。功能主要包括:对待处理信息、被采用信息、与未采用信息的查询功能,以及通过选取相关的记录来实现其它操作功能,如:采用、移动、删除、还原、导出、提取关键词、查看本地信息和来源信息等功能。
统计信息:
根据关键词的加权值组合成一张列表信息,以便反映出辞典与关键词之间的排列优化情况,从而对各关键词的搜索效率进行评价。
上网代理服务器:
1).软件公司
2).上网代理服务器的相应数据在XML文档里进行设定。
3).XML文档里的上网代理服务器的设定格式为URL:端口方式。
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。