新闻中心

EEPW首页 > 手机与无线通信 > 设计应用 > 基于改进平衡Winnow算法的短信过滤系统

基于改进平衡Winnow算法的短信过滤系统

作者:时间:2011-01-20来源:网络收藏


3 系统反馈

Winnow 是一种在线学习的、以错误为的分类器, 适于结合增量式学习来解决自适应问题, 实现用户的个性化要求。平衡Winnow 算法是基本Winnow 算法的另外一种形式, 同样具有在线更新能力。在分类器训练过程中, 对错分的短信通过α 和β 更新类别权重向量,实现对分类器的更新, 平衡Winnow 算法中w+和w-的双向调节, 使算法的训练速度更快, 适合于对分类实时性要求较高的短信过滤系统。

4 实验资源及分析与*价

本文在自建短信语料库的基础上完成对比实验, 其中正常短信1 892 条, 垃圾短信270 条, 将短信语料库随机分成5 等份, 其中4 份用于训练样本,1 份作为测试样本。

4.1 *价指标

分类系统*价指标如下, 包括两类短信各自的准确率(precision) 和召回率(recall) , 由于系统目标是垃圾短信过滤, 于是增加了针对垃圾短信的综合*价指标(F1):

F1=(2×准确率×召回率)/( 准确率+召回率)。

4.2 实验结果分析

(1) 实验1: 探讨改进的特征权重计算方法对实验结果的影响。实验结果如表1 所示。

表1 特征权重计算方法对实验结果的影响。


其中测试样本中正常短信被误分为垃圾短信条数为22 条, 正常短信召回率为94.2%; 垃圾短信被误分为正常短信8 条, 准确率仅为67.7%。

(2) 实验2: 统一参数和取固定的阈值θ 之后对实验结果的影响。该实验中取:α=1.5 、β=1/1.5 、θ=15 。实验结果如表2 所示。

表2 选定参数对实验结果的影响


其中测试样本中正常短信被误分为垃圾短信条数为18 条, 正常短信召回率为96.1%; 而测试用的垃圾短信正确识别了44 条, 准确率为71.0%。由此可见, 参数对实验结果的影响不大。

(3) 实验3: 去除野点对实验结果的影响。实验结果如表3 所示。

表3 去除野点对实验结果的影响。


从实验结果分析, 仅有12 条正常短信和8 条垃圾短信被错误分类。通过去除野点, 发现不仅缓减了抖动现象, 而且提高了分类器的分类性能及正常短信的召回率。

Balanced Winnow 在训练速度和分类速度上具有较大优势, 所以具有更高的实用价值, 非常适合短信过滤的要求。另外,Winnow 作为一种在线学习方法, 在训练集合不断扩大的情况下能够快速对分类器进行更新。正是基于Winnow 不断学习、不断调整的机制, 使其非常适合用户自己定制需要的分类标准。随着用户不断地反馈调整,整个系统会表现出越来越好的效果。

本文引用地址:http://www.eepw.com.cn/article/156764.htm

上一页 1 2 3 下一页

关键词: 驱动

评论


相关推荐

技术专区

关闭