加载中 ...

网站建设自定义Web爬网程序

2019-08-08 15:53:12 来源：沈阳小程序开发作者：沈阳软件开发

Web爬网程序有两个主要阶段：初始化URL库，然后进行爬网。其次，爬网程序读取尚未访问的URL以确定其工作范围。

Web爬虫（也称为Web蜘蛛，Web机器人，在FOAF社区中通常称为Web chasers）是根据特定规则自动爬网Web信息的程序或脚本。其他不常用的名称是蚂蚁，自动索引，模拟器或蠕虫。 Web爬网程序有两个主要阶段：初始化URL库，然后进行爬网。其次，爬网程序读取尚未访问的URL以确定其工作范围。其中，对于要爬网的URL链接，请执行以下步骤。（1）获取URL链接（2）解析内容，获取URL和相关数据（3）存储有价值的数据（4）规范化新爬网的URL（5）过滤掉不相关的URL（6）将捕获更新URL库的URL（7）重复步骤2直到终止条件。