中电翔云数据采集
利用中电翔云 网络信息雷达系统,对采集目标网站进行监控采集,并进行页面信息的过滤,保留网页的信息主体内容,文档图片,文档表格,基本过滤大多的无关导航、广告信息。并能自动进行相似性文档标引、分类。
同时中电翔云网络信息雷达系统不但可以对指定网站、指定栏目的内容定时进行抓取,还能实现进行内容提取后,自动导入中电翔云内容管理系统,辅助编辑工作
强大的信息实时监控和采集功能定制采集源和监控周期
高效的采集技术和更新策略
智能化的信息过滤、自动分类和排重等信息处理功能专题内容定制
垃圾信息过滤
灵活的信息发布和检索
配备强大内容检索引擎
基于内容相似度计算的自动排重
支持自动发布和人工发布两种方式
频道管理是定义采集任务信息与提取信息的管理模块,不同的采集站点通过频道划分归类。频道可以包含一个或多个任务。用户可以根据分类需要或习惯把一些相关站点作为一类放在一起,定义为一个频道。
l 抓取配置:为采集任务定义优先级、分配采集器、设定更新周期等运行设置。
l 调度配置:设定抓取任务为自动或定时抓取。
l 解析配置:设定抓取任务的页面解析规则和元数据提出规则。
采集器管理
添加采集器的ip、端口等内容,为采集服务的检测提供基础配置管理。
任务导出
用户可以应用采集导出功能将采集任务下载的站点数据以XML文件的形式导出,并且整合到其它业务系统中。采集导出提供按任务、页面发布时间、导出每页记录数、文件类型、是否包含图片等组合条件导出数据的功能。
索引库管理
可创建多个索引库,每个索引库可添加多个索引项。系统采用中文分词技术,可对索引项进行分词设置、模糊匹配等。
同义词管理
用户可以通过词典管理功能为索引过程建立同义词典,具体操作包括新建同义词、删除同义词和查找同义词。
索引设置
对索引库进行基本的配置,包括索引库路径,服务器地址等。提供系统定时自动处理索引库操作的功能。
分类树管理
用户在分类数管理中可定义父分类也可定义子分类。在定义好的分类树中,可移动分类在分类树中的位置,但是分类只能在同级间移动,不能越级移动,如果父分类被移动,那么该父分类下的所有子分类也跟着被移动。
分类规则管理
分类规则管理中可定义分类规则的多种属性,包括分类间的关系、是否生效、关键词、来源、文件类型。
分类信息发布管理
可对分类下的信息的发布情况进行管理。
信息导出管理
用户可以将所定义的分类下的信息导出来,存放到自己的文件目录中。
4)系统特点
松耦合性架构,支持各功能模块的扩展应用
由于数据采集和内容检索的广泛性应用,系统设计采用松耦合的架构,各功能模块相对独立,使得采集、索引既作为搜索服务系统的核心业务,也可被其他业务系统整合。
多机采集、分布式部署,适应大规模采集任务
系统支持一机或多机模式下实现采集任务,用户可以通过注册的方式声明一台新的采集器。当采集任务过大时,采用采集沈阳小程序定制
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。