基于多种分类器的垃圾邮件分类.docx
《基于多种分类器的垃圾邮件分类.docx》由会员分享,可在线阅读,更多相关《基于多种分类器的垃圾邮件分类.docx(22页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、目录摘要1Abstract11引言21.1研究的背景和意义21.1.1研究背景21.1.2研究意义21.2国内外研究现状21.2.1国内研究状况21.2.2国外研究状况31.2.3研究发展趋势31.3研究思路及方法31.3.1研究思路31.3.2研究方法42基于多种分类器的相关概述52.1相关概念界定52.1.1垃圾邮件的概念52.1.2垃圾邮件分类器52.2垃圾邮件泛滥的原因及危害62.2.1垃圾邮件泛滥的原因62.2.2垃圾邮件泛滥的危害63广东培正学院学生受垃圾邮件影响的现状83.1调查问卷设计83.2样本基本情况83.3培正学院学生沟通交流使用的工具93.4垃圾邮件的影响104多种分类
2、器的垃圾邮件分类114.1分类器简单介绍114.2分类器的衡量标准124.3分类器效果对比135抑制垃圾邮件发展的对策建议145.1根据分类特点,合理运用145.2从根部消除垃圾邮件,源头制止146结论157不足与展望16参考文献17附录18致谢20基于多种分类器的垃圾邮件分类邓志慧摘要:在当今时代,电子邮件的出现和发展与大家的日常生活息息相关,也许大家在很多时候不能第一时间想到其重要性,但是当大家失去它时,便会感到手足无措。它让咱们的生活变得更加便利和舒适。在大家享受电子邮件给大家带来的便利之时,垃圾邮件的出现打破了大家的美好幻想,它给了大家当头一棒,无论在生活还是工作方面都让人很劳神费心。
3、它的出现不但影响大家的工作进程和工作效率,降低了我们的生活质量,在一定程度上给大家造成了经济损失。因此,有必要实行一定的措施来避免或者减少垃圾邮件给大家造成的困扰。只有实行了这样的措施才能够让互联网经济往良性发展,并且促进互联网经济稳步前行。这对于改善互联网环境而言有重要的意义。本文通过广东培正学院学生为调查对象,对国内外研究现状进行阐述,基于多种分类器的相关知识的掌握及了解,在此基础上提出对策建议。关键词:垃圾邮件;互联网;多种分类器;电子邮件 Multifarious Sorter based on spam ClassificationBy Deng zhihui March,2020A
4、bstract:In this day and age,The emergence and development of email is closely related to our daily life,Perhaps we do not think of its importance in the first place in many cases,But when we lose it,You dont know what to do.It makes our life more convenient and comfortable.While we enjoy the conveni
5、ence of E-mail,The advent of spam has shattered our illusions,It hit us in the head,Its exhausting, both at work and in life.Its appearance not only affects our work process and work efficiency,It reduces our quality of life,To some extent, it has caused US economic losses.However, the emergence of
6、spam to us a lot of unnecessary trouble.It will not only reduce our work efficiency, affect our quality of life, and even cause US economic losses.Therefore, I think it is necessary to implement certain measures to avoid or reduce the nuisance caused by spam to us.Only with such measures can the Int
7、ernet economy grow in a healthy way,And help the Internet economy move steadily forward,and is of great significance for improving the Internet environment.In this paper,The survey was conducted among Guangdong Peizheng College students,the research status quo at home and abroad, based on a variety
8、of classifiers to master the relevant knowledge and understanding, based on which countermeasures and suggestions.Keywords: sorter;spam;Inter;electronic mail1引言1.1研究的背景和意义1.1.1研究背景随着互联网的兴起与发展,人和人的沟通交流方式越来越多样化,只需要一台电脑,一部手机即可联系自己的亲朋好友甚至与他人进行跨国交流。电子邮件也随着时代的发展逐渐的在互联网中占据了一席之地,人们通过电子邮件传递信息,无论是生活还是工作都离不开电子
9、邮件。但是与此同时,垃圾邮件也随之出现了,并且增长的速度越来越迅速,这对人们的生活、工作、以及学习方面造成了很大的影响。从中国互联网协会反垃圾邮件中心发布的2014年第三季度反垃圾邮件状况调查报告可以知道,截至2014年10月,保守估计这些垃圾邮件会给中国的经济带来不低于187.2亿元人民币的损失,且根据报告中的数据可以得出使用电子邮件的人们平均每周接收到的垃圾邮件数量为12.8封,垃圾邮件在所有邮件占的比例为33.1%。其中,使用电子邮箱的用户最常收到的垃圾邮件内容的两大类别分别是商业广告以及涉嫌违法的内容,而商业广告和违法内容又有细分,接下来分别说出其中各个类别的比例情况。关于商业广告垃圾
10、邮件内容比重在前五的分别有:网站推广类占57.7%,培训教育类占38.5%,保险金融类占28.9%,交通游玩类占28.6%,IT产品销售类占22.5%。关于违法的垃圾邮件内容比重在前五的是:诈骗信息类占48.5%,不正规出售票以及证件类占34.2%,不合法的金融投资等相关活动占24.4%,淫秽色情类占24.2%,赌博类占20.3%。并且在这些调查者中他们认为电子邮箱最大的危害就是浪费他们的时间,除此以外,还会造成或大或小的经济损失以及电脑中毒的问题,影响他们的工作和生活的秩序。1.1.2研究意义为了互联网的环境越来越好,让人们能够全心全意的投身于自己的生活以及工作当中,减少甚至避免出现因为垃圾
11、邮件而带来的浪费时间甚至造成经济损失的情况。研究和了解垃圾邮件分类器的作用,并提出自己的意见和想法,促进垃圾邮件分类器的进步。1.2国内外研究现状1.2.1国内研究状况徐彬1针对中国现状以及国内的实际情况提出了基于传统OCR技术进行改进的伪OCR过滤技术,进过他的深入研究,最后得出的实验结果表明,同基于传统OCR过滤技术相比,伪OCR在过滤中文垃圾邮件图像时有更好的效果,尤其在要求误识别率比较低的情况下,而且通过调节具体的参数还可以在一定程度上控制伪OCR技术的系统性能以满足不同的应用需求。 胡锡衡2认为反垃圾邮件过滤系统中的内容过滤技术不够成熟,因为其主要是利用了垃圾邮件本身规律的规则过滤技
12、术。也正是因为这个原因所以中文垃圾邮件的过滤效果还不够理想。为了更好的解决这个问题,说出了自己的想法,这个想法是在中文邮件的内容过滤中引入k-最近邻方法和RBF神经网络算法。 詹川3对反垃圾邮件技术有很深的见解和看法,他能准确的说出其存在的优缺点,是因为他能全面的分析总结当前的反垃圾邮件技术。他通过了解MNNB算法以及神经网络LVQ的相关知识,利用MNNB算法以及LVQ两者结合得出的模型的垃圾过滤能力得到提升。而提出基于特征的ASD算法进行过滤是因为更好的解决面对许多内容大致相同的垃圾邮件时的情况。 陈爽4认为当今对垃圾邮件的过滤技术虽然的确是很高,但是不能做到在垃圾邮件传输途中就直接进行过滤
13、,而是在垃圾邮件完成发送后才进行工作,且垃圾邮件很容易躲开黑名单和域名反向查询的技术。而且,因为有伪造邮件头的情况出现,导致某些信息会被忽略。看到这些情况的出现,为了避免下次再次出现这类现象,他提出了自己的想法并且为之付出实践,通过运用MD5加密算法和二叉树结构,创造了基于邮件头的指纹分析技术。最后,为了有效从根源解决此问题,创造了三种发送行为控制机制,只有这样才能达到从源头制止垃圾邮件的产生。1.2.2国外研究状况国外研究学者早在19世纪末就已经将机器学习算法应用到垃圾邮件分类的研究中来。Drucker 等人5把Ripper(重复增量修枝)算法和SVM(支持向量机)用于垃圾邮件分类中,他很好
14、的利用了身边的资源,将某个单位员工的真实邮件作为资源进行测试,因为种种原因的综合,最后他制造出来的垃圾邮件分类系统可以在识别垃圾邮件方面有相对较高的准确率;Androutsopoulos等人6利用K组最近的距离而不是K个最近的样本来计算,这个计算方法是KNN算法,他们利用此算法对垃圾邮件进行过滤分类;Ion等人7将朴素贝叶斯分类器使用于过滤那些未经请求的批量电子邮件,研究了属性集大小,训练语料库大小,形态恢复和停止列表对过滤器性能的影响;Tiago 等人8则进行了研究和比较,对互信息、文档频率、卡方统计、信息增益四个不同的特征选择方法下的朴素贝叶斯垃圾邮件分类器的性能进行研究和比较,发现把卡方
15、统计和信息增益作为特征选择的方法可以有效提高垃圾邮件分类系统的分类精度;Almeida 等人9将传统朴素贝叶斯、布尔 NB、多项布尔NB、多元高斯 NB、多项式 TF-NB、多变量伯努NB、FlexibleBayes 七种不同版本 Naive Bayes 分类器应用到垃圾邮件分类中,并将它们与支持向量机算法在六个不同的非编码数据集上进行比较;Jyh 等人10提出了一种基于决策树数据挖掘技术的高效垃圾邮件分类方法,分析了垃圾邮件的规则,并应用这些规则开发了一种系统化的垃圾邮件分类技术。1.2.3研究发展趋势根据国内外的研究现状可以得出,在宏观的角度去看,国内外的垃圾邮件过滤技术并没有本质的区别,
16、甚至可以说其中的差异是非常小的,时代在进步,人们的需求在逐渐的增加,技术一直在革新,国内外的学者都在原有的基础上提出了新的想法并努力为之付出行动进行实践。我根据目前所了解和掌握的知识,根据实际情况,以广东培正学院作为调查对象,基于多种分类器对垃圾邮件分类的技术提出我的看法并努力寻求技术上的突破。1.3研究思路及方法1.3.1研究思路第一部分为引言。根据题目基于多种分类器的垃圾邮件分类讲述研究此课题的研究背景、研究意义;还有国内外学者对基于多种分类器的垃圾邮件分类的研究现状。第二部分为概念界定和理论基础。包括垃圾邮件的概念、分类器的概念和垃圾邮件分类的意义、广东培正学院学生受到垃圾邮件的影响以及
17、对中国互联网行业经济发展的影响.第三部分为现状。目前广东培正学院学生受到垃圾邮件的影响情况以及垃圾邮件分类器的发展状况和发展趋势。第四部分为问题。根据所得数据以及调查的资料,全面分析总结,发现垃圾邮件分类器目前存在的问题并找出其出现的原因,并且对于多种分类器进行比较。第五部分为对策建议。发现问题以后根据实际情况提出合理适当的解决方法。第六部分为总结。1.3.2研究方法Ripper、Boosting、决策树方法和粗糙集方法 设置关键词等一些其他的信息源,通过设置一系列规则对垃圾邮件进行分类,只要邮件与设定的特征相吻合,此邮件就会被归入垃圾邮件当中。文献研究法从现有的书籍、报刊、各种信息、权威论文
18、网站、历史资料中获取与调查内容相关资料。通过查找大量文献对各个内容进行对比和总结,了解了垃圾邮件分类器发展趋势等相关研究,深度分析其研究现状为本课题的研究方向奠定基础。朴素贝叶斯 、SVM方法 通过大量样本训练进行对邮件的分类,基于统计学的基础上,将大量的正常邮件以及垃圾邮件混合,通过一系列的训练从而做到对邮件进行分类。问卷调查法 根据问卷调查提供的有效数据能够直接的反映出来问题的存在。本文主要是为了探讨基于多种分类器的垃圾邮件分类,需要调查目前垃圾邮件对于我们的影响程度有多大以及我们在日常生活中对于电子邮件的依赖程度有多大,只有在有需求的情况下,这个课题的研究才是有意义的。而大学生群体是我身
19、边的人,因而能够更方便的获得相关数据而且大学生群体对于电子邮件的需求正在上升,无论是学习还是生活都离不开电子邮件,所以调查大学生群体得到的数据也具有一定的代表性。2基于多种分类器的相关概述2.1相关概念界定2.1.1垃圾邮件的概念垃圾邮件: 垃圾邮件在普通意义上的定义是未经主动请求的大量的电子邮件;1、未经收件人同意向其发送广告、以及其他带有宣传自己产品的性质的电子邮件;2、收件人没有办法拒绝接收这份电子邮件;3、不直接表明邮件的发送人,邮件的出处,以及邮件标题的电子邮件;4、在电子邮件的内容里面有不真实的信息源、发件人信息、路由等情况时被认为是垃圾邮件;5、带有病毒的电子邮件,恶意代码,并且
20、其内容含有淫秽色情等不利于社会发展的信息时被认为是垃圾邮件;6、利用价值较低并且发送频繁,给使用者带来不好的感受的邮件被定义是垃圾邮件。2.1.2垃圾邮件分类器首先要介绍的是朴素贝叶斯法,朴素贝叶斯模型(Naive Bayesian Model,NBM)是最为广泛的两种分类模型中的其中一个,另一个是决策树模型(Decision Tree Model);它是一种根据贝叶斯定理与特征条件独立假设的分类方法。这两种分类模型各有千秋,在这里我们重点评价朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)的特点。先说朴素贝叶斯分类器的优点,由于它历史悠久,有坚固的数学基础,所以分
21、类效率相对稳定。并且计算的方式特别简单。缺点就是其对数据的灵敏度较低,并且在实际应用当中,朴素贝叶斯模型分类的准确率往往不高。第二个要介绍的是SVM(Support Vector Machine),是一种常见的判别方法,它指的是支持向量机。除此以外,它还是能够回归分析、分类、模式识别的一种带有监督功能的学习模型。最后一个是Ripper、Boosting、决策树方法和粗糙集方法,这是一种很简单粗糙的分类方法,通过设置关键词、信息源等,根据所设置的内容进行垃圾邮件的区分,这类型的方法虽然成本不高且简单容易操作,可是准确率不高,无法根据实际情况做出适当的调整。2.2垃圾邮件泛滥的原因及危害2.2.1
22、垃圾邮件泛滥的原因一是为了个人利益,利用垃圾邮件散播广告,使自己正在推广的产品能够被更多人知晓,除此以外,这也是一种能够为自己找到广告商的一种方法,利用这一点,让其他想要宣传自己产品的店家愿意为其投资,从而达到他们双方“互赢”的局面。当然了,这种“推广”方式是极其不推荐的,这是一种自私自利的,不顾及他人感受的一种宣传方式。二是缺少职业道德素养,有的黑客利用自己擅长对电脑进行操作的特点,运用自己掌握的技术对个人,企业甚至是国家的邮箱里发送垃圾邮件,当他们达成目的,给社会带来了巨大的困扰,影响社会生活的正常发展秩序时,他们常常感到骄傲和自豪。他们没有利用自己擅长的,去帮助国家社会发展,这是一种严重
23、不尊重自己职业的体现。三是企业与企业之间的恶性竞争,有的企业为了能够战胜比自己优秀的企业,利用垃圾邮件带来的困扰,使自己的对手陷入垃圾邮件的烦恼之中,从而扰乱竞争对手的公司秩序,降低其战斗力。当然,这种恶性竞争在早年间出现的可能会比较多,但是在当今社会出现的情况大大降低甚至已经没有此现象出现了。四是无视法律,道德感低下。利用垃圾邮件传播淫秽色情信息,毒害青少年的身心健康,并且阻碍了人们工作生活的步伐。甚至还不惜侵犯他人隐私权,给多方造成不必要的困扰。2.2.2垃圾邮件泛滥的危害 一是个人层面,对于个人来说,垃圾邮件最大的危害就是造成了工作延误,不能及时的完成上级交代的任务,因为垃圾邮件可能携带
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多种 分类 垃圾邮件
限制150内