天问智讯文本数据挖掘组件
» 组件定位
天问智讯文本数据挖掘组件基于快速、稳定和高性能的底层文本挖掘算法实现,软件提供了可调用、可扩展的应用程序接口服务,基于这些接口,用户可开发出满足需求的个性化应用。
» 功能介绍
»文本分词工具
中文分词是网络文本处理中的一项基础性工作,是诸多文本信息处理系统不可或缺的一个重要环节,汉语自动分词的主要技术难点是:分词规范、歧义切分和未登录词识别。
»实体信息抽取工具
通过规则和机器学习相结合的方式,天问智讯的实体信息抽取工具能够准确地抽取海量数据非结构化或结构化文档中的隐含的有用信息,并存储为结构化的数据,用于情报分析和实践应用。
»关键词信息提取工具
天问智讯的关键词信息提取工具融合了基于统计、基于位置/词频/词性等关键词抽取方法,考虑了实体、同领域文档对单篇文档关键词的影响。 在全面把握文章的中心思想的基础上,从一篇文档(或多篇相关文档)中自动抽取出能很好地代表文档主题的若干个词汇或短语。
»中英文文本摘要工具
自动摘要能够对海量文本进行精要提炼,从而帮助用户以摘要的方式阅读和处理更多的文件与信息。天问智讯的中英文双语摘要系统在对文本进行深层句法分析的基础上,首先进行关键语义片段识别,然后通过话题转换自动识别技术,构建片段间的依存关系结构,最终形成指定字数的文本摘要。
»文本信息查重工具
网络上充满了越来越多的信息,网媒和网民的信息传播大量重复信息(或相似信息),一些商家还出于某种考虑大面积的散播重复信息,这些重复的信息在分析网络信息传播、网络热点分析中具有非常重要的价值。为此,我们需要通过各种途径准确高效地查找、归类这些信息,从中挖掘出有用的知识。
»文本自动分类工具
文本自动分类是指无须人工干预的条件下,将文本自动识别为用户设定的类别。目前大部分文本分类产品采用的基于关键词和逻辑规则的分类方式,难以达到较好的效果。天问智讯的文本分类采用了基于机器学习技术构建分类模型进行文本自动分类
»文本聚类工具
在不提供类别体系的情况下,文本聚类对大量文档进行归类,使得每个类中的数据之间最大程度地相似,并计算给出表征各类文档的主题词,帮助用户更快速地定位自己所需的信息和归纳海量文档的主题内容。文本聚类是聚类搜索、热点发现与追踪的基础技术。
» 技术优势 通过机器学习和用户行为分析相结合的方式,能够持续准确且全面地挖掘文档中的实体,在国际评测语料ACE语料的实体抽取准确率达到85%以上; 海量网页重复信息的重复查找,准确率在95%以上,百万级别网页查重速度不高于1分钟; 通过网页重复信息查找与分析以及对新闻数据的重复信息查找,可构建新闻的转载网络,实时分析新闻的传播影响; 对论坛帖子、博客、微博等的重复信息进行查找和分析,可分析有害信息的传播途径及影响。 长期的研发积累,天问智讯构建了非常完备的语料分类体系,建立了覆盖8大类38小类的二级文本分类体系,天问智讯的分类工具分类准确率高,支持中英文双语分类,根据公开测评,天问智讯在公共安全、社会舆情和商业情报领域的文本自动分类准确率高于95%;并且分类工具还支持用户自定义业务所需的分类体系,通过训练和管理样本数据,从而支持文档个性化自动分类;天问智讯的分类工具还加入反馈机制,可根据用户对分类结果的反馈进行在线自学习和自修正,不断地改善分类的准确性,持续性地保证分类的精准度。 天问智讯的聚类工具对于无领域区别文本,聚类准确率达到75%以上,对于特定领域的文本,聚类准确率达到85%以上。1000篇文档可在10秒内返回聚类结果,而处理10000篇文档的时间是1分钟以内;
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。