网络舆情监测分析预警系统
信息采集形式全面;
信息预处理:
系统按照各信息源表现出的网页形式呈现采集信息,网页上包含大量的广告、图片、链接,这些不是舆情关注的价值信息,还给系统的高效运行、检索增加负担。同时数据呈现按照各自信息源排列规则出现,需要系统分别去识别标题、来源、作者、发布时间、正文等,要求对信息预处理形成统一格式供后续的决策分析。预处理包含以下环节:
· 超链分析
· 编码识别
· URL去重
· 锚文本处理
· 垃圾信息过滤
· 关键字抽取
· 关键信息提取
· 正文抽取
· 自动摘要
舆情处理分析子系统
1、双重过滤机制
第一重过滤:自动过滤出与“我”有关的舆情;
第二重过滤:自动排除与“我”有关舆情中不具有舆情价值的信息;
双重过滤系统将重要舆情过滤出来,将不具备舆情价值的信息排除掉,更有利于舆情影响和舆情价值的分析,舆情工作变得有的放矢。
2、自动分类
基于内容对经过双重过滤处理后的重要舆情自动分类,无需人工干预,准确率达到85%以上。先设置分类关键词,每一个关键词都设置一个相应的优先级分值。对收集到的文章内容进行分析,分别对标题和内容进行匹配,统计匹配的次数,然后根据设定好的关键字匹配模型对每个关键字进行分值计算。分值超过一定分值的都将自动处理所对应的处理,匹配分值最高的关键字就自动分类。
3、相似性排重
采用“文章相似性技术”根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。采用中文分词技术对文章关键字比较计算,得出文章相似度,相似度高于0.75以上的文章系统默认处理为“已处理”,无需再进行任何操作,相似度位于 0.5-0.75 之间的相似转载文章需要用户在页面进行再次确认,确保文章无漏处理。
4、数理统计、趋势分析及报表报告生成
生成统计报表
统计论坛相关数据自动生成相关统计报表,并可导出EXCEL表格。如每日主要论坛点击报告、每日主要论坛热帖排名、每日博文排名。
近期热点
包括近期热点专题、近期热点关键词、近期热门文章、热门新词、自动舆情新词发现功能。
舆情趋势
来源载体分布、来源站点分布、单个/多个关键词热度曲线图、主题/关键词热度的整体趋势、文章的转载量日均/总体趋势分析、舆情信息的地域分布、网民检索行为分析。
突发事件分析
对突发事件进行预警,跨时间、跨空间综合分析,获知事件发生全貌。
舆情统计报告
根据舆情分析引擎处理后生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。
舆情管理子系统
舆情管理子系统是舆情的显示系统,采用多种形式将用户关注的舆情分门别类地呈现给用户,用户浏览舆情即洞悉网络舆论发展的全貌。
1、登录首页
登陆首页设计体现出人性化特点,登陆首页是用户经常使用的页面,按照用户的操作习惯部署首页,一键式展示用户最常用功能和最关注舆情。
最常用功能如查找、舆情操作等;最关注舆情如本地热点舆情、当日国内焦点,也可因用户偏好和操作习惯而手工设置显示最关注的舆情。另外首页还将展示一些基础统计数据,如当日采集舆情数、非舆情数、排重数、总舆情数等。
2、本地相关新闻
功能描述:热点分析(文章热度分析、关键词分析)通过转载、回复、点击数进行判断处理。我们暂时确定为新闻按转载次数确定是否是舆情,论坛和博客按点击数多少确定是否是舆情。
3、最关注舆情
最关注舆情是个性化舆情的展示。舆情工作者根据个人工作范围或工作重点对网站、分类类别权重赋值,按照权重高低显示最关注舆情。
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。