【摘要】为了降低原始文本特征空间的维数,获得较高的分类精度与执行效率,对多种文本特征提取方法进行了研究,如卡方、互信息、信息增益、主成分分析(PCA)等。针对传统文本特征抽取方法存在的精度不高、执行效率低等问题,提出了一种基于分块主成分分析的文本特征提取算法。该算法通过K均值词聚类进行特征词分块,再对各分块实施PCA操作抽取出更具代表性的特征项,最后使用支持向量机分类器对文本进行分类。实验结果表明:分块主成分分析的分类指标Fβ=1达到了88.7%,执行时间为353s,能够有效提高文本分类精度与执行效率。
【关键词】
《河南科技大学学报(自然科学版)》 2015-11-10
《人生与伴侣》 2015-11-10
《宁波职业技术学院学报》 2015-11-10
《中国卫生产业》 2015-11-10
《压电与声光》 2015-11-11
《黑河教育》 2015-11-10
《重庆电子工程职业学院学报》 2015-11-10
《科技创业月刊》 2015-11-11
Copyright © 2013-2016 ZJHJ Corporation,All Rights Reserved
发表评论
登录后发表评论 (已发布 0条)点亮你的头像 秀出你的观点