基于空间向量模型的垃圾文本过滤方法
DOI:
作者:
作者单位:

作者简介:

通讯作者:

基金项目:

国家自然科学基金资助项目(61305088)


Garbage text classification filtering method Based on VSM
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    针对垃圾文本识别计算的需求特性,应用VSM文本聚类算法思想,综合现有TFIDF算法特点,提出一种基于VSM和改进的TFIDF特征项提取算法.本方法在对垃圾文本高聚类特征项权值进行放大的同时,有效减小由二类数据样本数量偏差对计算结果带来的影响,提高了垃圾文本过滤识别效率和准确率.为垃圾文本识别提供了一种新的改进算法选择.

    Abstract:

    A feature item extraction algorithm was proposed that based on VSM and improved TFIDF, according to the demand characteristics for the recognition and calculation of spam text by applying VSM’s text clustering algorithm and summarizing features of existing TFIDF algorithm. The algorithm not only zoomed in weighted value for feature item of spam text clustering but also effectively reduced the impact on the result affected by the difference of sample number of second-class data and improve identification efficiency and accuracy in filtering spam text. It provided a new improved algorithm selection for identification of spam text.

    参考文献
    相似文献
    引证文献
引用本文

吴玮.基于空间向量模型的垃圾文本过滤方法[J].湖南科技大学学报(自然科学版),2014,29(1):

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2014-03-14