欢迎来到得力文库 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
得力文库 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    中文垃圾邮件过滤系统的实现和评估.ppt

    • 资源ID:3344811       资源大小:134KB        全文页数:19页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    中文垃圾邮件过滤系统的实现和评估.ppt

    中文垃圾邮件过滤系统的实现和评估,田莹 北京 清华大学 网络中心 Email:,概要,引言 研究背景 中文垃圾邮件过滤系统的实现 中文垃圾邮件过滤系统的评估 最新研究进展及结论,引言,垃圾邮件的定义 垃圾邮件的危害 反垃圾邮件的意义 Email,短信,VoIP电话 垃圾邮件的特性,反垃圾邮件的方法,黑白名单 关键字匹配 贝叶斯 SVM Etc.,基于内容的过滤器的流程图,英文垃圾邮件的贝叶斯过滤流程,收集两个数据库 垃圾邮件数据库 正常邮件数据库 在每一个数据库中,学习并定义出一些关键词,计算这些关键词的概率 新邮件到来时,计算出新到来的邮件中包含的关键词的联合概率 通过联合概率判断新到来的邮件是否是垃圾邮件,中文邮件的预处理,中文分词的概念 分词算法 基于字符串匹配 基于理解 基于统计 中文分词的词典 基于整词二分 基于TRIE索引树 基于逐字二分,实验数据来源,CCERT提供 训练用邮件数 5000 测试用邮件数 500,评估指标,定义L为正常邮件,S为垃圾邮件。SL表示将垃圾邮件判定为正常邮件,同理,LS表示将正常邮件判定为垃圾邮件。 在文本分类问题中,有两个评估指标被经常使用。 Acc称为正确率。Err称为错误率。这里 表示将正常邮件判断为正常邮件的个数。 的含义可以类推。 和 分别表示待判定的正常邮件和垃圾邮件的总个数。,评估指标(续1),考虑到LS和 SL分别会有不同的代价,并设LS的代价是SL的代价的倍,我们定义两个新的评估指标,分别是WAcc(加权的正确率)和WErr(加权的错误率) 在没有过滤的情况下(无论是正常邮件还是垃圾邮件一律通过),我们得到基准WAcc和基准WErr分别为:,评估指标(续2),为了方便比较,定义比率R为 不难看出R越大,过滤的效果越好。R如果小于1,意味着过滤比不过滤效果还差,参数说明,我们的算法中有两个重要的参数 用于训练的样本个数n 在过滤中计算最终概率的特征数目m 实验中,主要研究R和n以及R和m之间的相互关系。,实验结果,图1 R-m关系图,图2 R-m关系图,图3 R-m关系图,图4 R-n关系图,实验结果说明,在过滤中计算最终概率的特征数目m以及用于训练的样本个数n都存在某个最优值 当用于训练的样本个数逐渐超过这个最优值时,过滤效果会略微下降并趋于一致。,最新研究进展,相关会议 MIT spam conference CEAS(电子邮件和反垃圾邮件会议),贝叶斯过滤发展方向,从单一关键词到关键词链 从线性到非线性 从单一用户到综合多用户 从客户端到服务器 利用电子邮件网络 Etc.,系统和产品,微软公司:SmartProof IBM公司:SpamGuru Etc.,结论,反垃圾邮件的挑战,谢谢大家,Q & A,

    注意事项

    本文(中文垃圾邮件过滤系统的实现和评估.ppt)为本站会员(创****公)主动上传,得力文库 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知得力文库 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于得利文库 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

    © 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

    黑龙江省互联网违法和不良信息举报
    举报电话:0468-3380021 邮箱:hgswwxb@163.com  

    收起
    展开