『智海』文本挖掘组件
多种聚类方法选择,K-Means、BIRCH、DBScan等
文本摘要
根据统计方法和不同类型文本摘要的模型自动地进行提取文摘,文摘是全面准确地反映某一文献中心内容地简单连贯的短文。
对不同文档类型能自适应的选择不同的摘要模型
能对自动摘要抽取结果进行语义修饰,明显增强摘要的可解释性
对新闻、论文等类型文本的摘要提取性能优异
相关性分析
文档相关性分析是基于文档相似度模型,对于多篇文档进行自动分析,给出它们之间的相似度,从而可以判断文档是否相似或者强关联。
可扩展的领域规则和词库
组件可扩展性强,提供标准稳定的API
对于1M左右的两篇文本计算时间小于3S
应用场合包括重复检测、事件关联、文本聚类等
倾向性分析
通过计算机技术和自然语言模型对于文本所包含的情感倾向、观点及其强度进行自动分析和挖掘。
大规模情感词库,包括情感词和相关倾向度
情感描述模型库
支持词、句子和文档的倾向性分析
智海信息检索
支持高性能海量信息检索,提供多种检索接口和模式,召回率和准确率可以根据应用的不同进行调整,是非结构化数据信息管理的必备工具。
支持全量、增量、实时和分布等多种信息索引方式
提供关键词、短语、布尔运算等多种查询方法
内含相关的基于自然语言处理的文本分析工具
提供输入提示、纠错、相关搜索等多种工具
五、组件的应用价值
智海文本挖掘组件可以广泛地适用于:信息资源开发利用,智能搜索引擎、情报分析和服务、信息安全监、互联网信息增值服务等诸多应用领域。当前在我国现有条件下,其应用价值集中在:
为信息内容安全监管提供智能技术
随着博客、微博、电子邮件、论坛社区、社交网络、即时通信等互联网技术和应用的普及,互联网信息内容日益庞杂。这些通信方式在增进人与人沟通的同时,由此诱发的社会问题也日益增多。世界各国政府和相关机构越来越重视对网络信息内容安全的监管,智海文本挖掘组件可以作为海量信息内容分析的智能化工具,能有效提高监管的效率,降低监管成本。
推动行业信息资源管理和利用的智能化和高效化
我国政府和企业的信息化建设已逐步从基础的业务信息管理阶段,进入到更高层次的信息资源整合、决策信息管理阶段。政府需要整合各种平台的信息资源,消除信息孤岛,建立综合信息利用平台;企业需要整合行业信息和企业内部信息提高经营效益,为企业战略决策服务。智海文本挖掘组件可以作为整合结构和非结构信息的基础构件,提供智能检索和挖掘分析的手段,放大信息资源的增值效用。
为互联网信息增值服务提供不可或缺技术支撑
在当前海量网络信息传播的形势下,一些行业性、独占性、高增值的信息资源日益得到信息用户的青睐。能否有效高质的信息处理能力和及时、个性、智能的信息服务手段已成为拥有上述信息资源的内容提供商所必需面对的挑战。智海文本挖掘组件能够支持智能化自动化的信息增值加工,是想智能检索和知识关联,帮助内容提供商降低信息增值加工成本,拓展智能服务,提高最终信息用户的使用体验。
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。