引用本文:
【打印本页】   【下载PDF全文】   查看/发表评论  【EndNote】   【RefMan】   【BibTex】
←前一篇|后一篇→ 过刊浏览    高级检索
本文已被:浏览 2821次   下载 1502 本文二维码信息
码上扫一扫!
分享到: 微信 更多
基于Spark的大规模文本KNN并行分类算法
李宏志1,2*,李苋兰 2,赵生慧11,2
1.滁州学院 信息学院,安徽 滁州239000;2.福建师范大学 光电与信息工程学院,福建 福州 350000
摘要:
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.
关键词:  KNN  并行化  文本分类  Spark  RDD  MapReduce
DOI:
分类号:TP311
基金项目:安徽省自然科学基金资助面上项目(1408085MF126)
Abstract:
Key words:  
湖南科技大学学报(自然科学版)
引用本文:
【打印本页】   【下载PDF全文】   查看/发表评论  【EndNote】   【RefMan】   【BibTex】
←前一篇|后一篇→ 过刊浏览    高级检索
本文已被:浏览次   下载  
分享到: 微信 更多
摘要:
关键词:  
DOI:
分类号:
基金项目:
Abstract:
Key words: