全站搜索
基于自学习K近邻的垃圾邮件过滤算法
作者:管理员    发布于:2015-11-03 11:09:49    文字:【】【】【

  基于自学习K近邻的垃圾邮件过滤算法陈治平,王雷(福建工程学院计算机与信息科学系,福建福州350014)效果比较差的现象,提出了一种基于自学习K近邻(kneaestneighbrsKNN)方法的垃圾邮件过滤算法。应用KNN方法对未知邮件样本进行匹配,以排除合法邮件的误判结果,同时结合用户对垃圾邮件的处理自动调整训练集合……

  表1基于自学习K近邻垃圾邮件过滤结果训练集垃圾邮件样本数垃圾邮件测试样本数正确划分垃圾邮件数错误划分垃圾邮件数垃圾邮件分类精度()从表1中可以看出,当垃圾邮件样本数比较少时,所过滤的垃圾邮件只有5410而当垃圾邮件训练样本数为70时所过滤的垃圾邮件9790而实验中所使用的训练样本的数量只有70封,因此这种方法可以在小样本训练数据的情况下得到较高的分类精度,从而可以有效地解决当前垃圾邮件曰益增多的局面。

  4结语常用的分类算法如NBSM等需要具有足够多的训练样本才能使训练样例合理地表示实际样例的分布,但由于合法邮件在内容上存在各种各样的信息,从而使这种假设不成立,导致这些方法在实验中得到好的分类精度,但实际中应用的分类精度比较差,而由于KNN方法所具有的惰性特征,可以使训练集合随时进行变化,同时其匹配使得只要垃圾邮件存在于训练样本集合中就可以进行有效地识别,因此基于自学习的KNN邮件过滤算法具有较好的实际应用。

  由于实验中采用的分类系统只能支持英文,下一步的研究方法将着眼于中文垃圾邮件的过滤,同时结合垃圾邮件所具有的特性进行进一步的研究,以使分类算法更加适用。

访问统计
51客服