eInfo网络情报搜索处理系统
在网络速度够快的情况下,单台采集工作站每天可采集259万个网页。
2.2 情报加工2.2.1 自动分类根据系统定义的情报分类,将搜索的信息自动归属到该情报分类下。
2.2.2 自动过滤垃圾信息在网页上,有两部分内容:一部分是网页的主题信息,另一部分是与主题内容无关的导航条、广告信息等内容,我们称为“噪音”信息。为提高信息质量,必须过滤掉“噪音”信息。
2.2.3 自动提取文档内容(1) 能分析出网页标题和网页内容。
(2) 能分析Word文件、Excel文件、PowerPoint文件、Visio文件、Outlook文件、XML文件、HTML文件、PDF文件、文本文件、RTF文件、Java文件、ZIP压缩文件、BZip压缩文件、GZip压缩文件、TAR压缩文件、MP3文件、MIDI文件、WAV文件等格式文件的内容。
(3) 能分析中文、英文、日文、俄文、德文、法文等11种语种的信息。
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。