『智海』文本挖掘组件
一、概述
文本挖掘是指从海量非结构化自然语言文本数据中,抽取相关的、潜在的、新颖的、有价值的信息的计算机信息处理技术,是由机器学习、数理统计、自然语言处理等多种技术交叉形成的。文本挖掘一般包含输入文本结构化、文本模式分类、输出评价和解译等过程。从某种意义上讲,文本挖掘是数据挖掘技术的一个分支。文本挖掘技术是应对互联网和企业中非结构化数据激增的利器。
非结构化数据是可获取数据的主流
互联网中的信息以非结构化数据为主,而且冗余庞杂,各种有害和垃圾信息混杂其中。人们越来越依赖于利用搜索引擎从互联网获取有用信息,这种强烈的需求在推动搜索引擎技术发展的同时,也进一步凸显出海量数据与用户获取能力间的尖锐矛盾。据统计,随着信息化的推进,企业数据以每年约200%的速度增长,其中80%是文件、邮件和图片等非结构化的形式,如何有效地利用这些数据,转化为对企业决策有用的信息,已经成为衡量企业竞争力的重要方面。
文本挖掘技术有广泛的应用领域
典型的文本挖掘任务包括文本的分类、聚类、词条提取、情感分析、文档摘要,以及词条关联建模等,期望通过这些手段从自然语言构成的文本中提取精炼的有用的信息。这些技术的典型应用是海量文本的检索,为行业领域应用提供准确的语义层的文本索引。此外,在安全领域的纯文本分析、商业数据分析、网络媒体文本分析,以及生物医学和分子生物学领域都有广泛的应用。广阔的应用前景和巨大的商业价值,使该项技术已经成为当前自然语言处理研究的热点和信息技术行业中最为活跃的增长点。
二、智海文本挖掘组件的构成
智海创讯结合多年在文本分析和智能检索领域的技术积累和当前文本挖掘技术的最新研究成果,研发了实用化的『智海』文本挖掘组件。该组件包括了智能分词、关键词提取、信息提取、文本分类、文本聚类、文档摘要、相关性分析、倾向性分析、语义解析、海量文本检索等十大功能构件。这些构件实现了较为完备文本挖掘底层算法,性能稳定高效。构件间可无缝连接封装,为上层应用提供方便易用的调用接口,构成不同应用的文本分析核心组件。
三、组件的运行环境
提供C API和SOAP API两种调用方式,方便其嵌入其他应用软件和服务中。
组件支持的操作系统有:Windows Sever 2008/2003/2000/NT,Windows XP/7,以及Linux 2.4以上版本。
四、组件的功能和性能
智能分词
采用基于规则和统计相结合的分词技术,将中文的汉字序列切分为符合语境语有意义的词,可用于文献检索、搜索引擎等诸多领域,能提高检索的准确度。
内嵌分词歧义规则库
准确识别人名、地名、组织机构名
支持GB18030和UTF8两种编码和中英文两种语言
分词速度达到500KB/S
关键词提取
基于自然语言处理技术,对文本向量空间进行去噪、降维、特征提取等处理,从文章和短语中提取关键词。
大规模知识库支撑
基于统计模型和规则结合
基于统计的多种文本沈阳软件制作
提取结果描述性强
文本分类
在给定的分类体系下,基于统计学习的文本分类技术,根据文本的内容自动确定文本关联的分类项目。
多种预处理组件
多种特征选择算法,文档频率、信息增益、互信息法等
分类算法支撑KNN、朴素贝叶斯、SVM、Boosting等多种方法
分类速度达到1M/S
分类准确率一般能达到90%
文本聚类
作为一种无监督的学习方法,文本聚类通过统计方法和一定的领域知识规则对于大量文本进行簇划分,获得文本的语义类别信息。
多种相似度距离算法选择
根据不同应用设定不同参数,产生不同的聚类模型
能有效鉴别和处理文本数据集中的奇异值
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。