机器学习机器学习.ppt
《机器学习机器学习.ppt》由会员分享,可在线阅读,更多相关《机器学习机器学习.ppt(174页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第九章第九章机器学习机器学习11/28/20231 第六章第六章 机器学习机器学习p主要内容:主要内容:n机器学习概述机器学习概述n归纳学习归纳学习p示例学习示例学习p基于决策树的归纳学习方法基于决策树的归纳学习方法ID3n类比学习类比学习n基于范例的学习基于范例的学习n解释学习解释学习n支持向量机支持向量机11/28/20232学习经典定义:利用经验改善系统自身的性能经典定义:利用经验改善系统自身的性能 T.Mitchell,Book 97随着该领域的发展,主要做智能数据分析随着该领域的发展,主要做智能数据分析典型任务典型任务:预测:预测例如:天气预报例如:天气预报11/28/20233机器
2、学习(续)数据挖掘数据库机器学习数据分析技术数据管理技术11/28/20234 美国航空航天局美国航空航天局JPL实验室的科学家在实验室的科学家在Science(2001年年9月)上撰文指出:月)上撰文指出:机器学习对科学研究的整个过程正起到机器学习对科学研究的整个过程正起到越来越大的支持作用,越来越大的支持作用,该领域在今后的若干年内将取,该领域在今后的若干年内将取得稳定而快速的发展得稳定而快速的发展重要性生物信息学计算金融学分子生物学行星地质学工业过程控制机器人遥感信息处理信息安全机 器 学 习11/28/20235重要性:例子网络安全入侵检测:是否是入侵?是何种入侵?如何检测?历史数据:
3、以往的正常访问模式及其表现、以往的入侵模式及其表现对当前访问模式分类这是一个典型的预测型机器学习问题常用技术:神经网络 决策树支持向量机 k近邻序列分析 聚类 11/28/20236重要性:例子生物信息学常用技术:神经网络 支持向量机隐马尔可夫模型k近邻 决策树序列分析 聚类 11/28/20237重要性(续)机器学习在过去十年中发展极为迅速,今后会快速稳定地机器学习在过去十年中发展极为迅速,今后会快速稳定地发展、对科学做出更大贡献的领域发展、对科学做出更大贡献的领域E.Mjolsness&D.DesCoste,Science 01人工智能中最活跃、应用潜力最明显的领域(之一)人工智能中最活跃
4、、应用潜力最明显的领域(之一)T.G.Dietterich,AIMag 97美国、欧洲各国都投入了大量人力物力美国、欧洲各国都投入了大量人力物力大型公司如波音、微软、通用电器等都有研究课题大型公司如波音、微软、通用电器等都有研究课题已有一些研究成果进入产品已有一些研究成果进入产品11/28/20238机器学习角色的转变 如如果果我我们们想想做做出出重重要要的的贡贡献献,首首先先需需要要把把握握住住该该领领域域发发展展的脉搏的脉搏 机器学习现在似乎已经发展到一个新阶段机器学习现在似乎已经发展到一个新阶段p机机器器学学习习起起源源于于人人工工智智能能对对人人类类学学习习能能力力的的追追求求,上上一
5、一阶阶段段的的研研究究几几乎乎完完全全局局限限在在人人工工智智能能这这一一领领域域中中(学学习习本本身身是目的是目的)p而而现现在在,机机器器学学习习已已经经开开始始进进入入了了计计算算机机科科学学的的不不同同领领域域,甚甚至至其其他他学学科科,成成为为一一种种支支持持技技术术、服服务务技技术术(学学习习本本身身是手段是手段)11/28/20239挑战问题(1):泛化能力共性问题:共性问题:几乎所有的领域,都希望越准越好几乎所有的领域,都希望越准越好p提高泛化能力是永远的追求提高泛化能力是永远的追求目前泛化能力最强的技术:目前泛化能力最强的技术:支持向量机(支持向量机(SVM)产生途径:理论产
6、生途径:理论-实践实践集成学习(集成学习(ensemble learning)产生途径:实践产生途径:实践-理论理论11/28/202310挑战问题(1):泛化能力(续)第一个挑战问题:第一个挑战问题:今后今后10年年能否更能否更“准准”?如果能,会从哪儿来?如果能,会从哪儿来?11/28/202311挑战问题(2):速度共性问题:共性问题:几乎所有的领域,都希望越快越好几乎所有的领域,都希望越快越好p加快速度也是永远的追求加快速度也是永远的追求“训练速度训练速度”vs.“测试速度测试速度 训练速度快的往往测试速度慢:训练速度快的往往测试速度慢:k近邻近邻 测试速度快的往往训练速度慢:神经网络
7、测试速度快的往往训练速度慢:神经网络11/28/202312挑战问题(2):速度(续)第二个挑战问题:第二个挑战问题:今后今后10年年能否更能否更“快快”?能能做做到到“训训练练快快”、“测测试试也也快快”吗吗?如果能,如何做?如果能,如何做?11/28/202313挑战问题(3):可理解性共性问题:共性问题:绝大多数领域都希望有绝大多数领域都希望有“可理解性可理解性”例子:医疗诊断例子:医疗诊断 地震预测地震预测目前强大的技术几乎都是(或基本上是)目前强大的技术几乎都是(或基本上是)“黑盒子黑盒子”神经网络、支持向量机、集成学习神经网络、支持向量机、集成学习p“黑盒子黑盒子”能满足需要吗?能
8、满足需要吗?11/28/202314挑战问题(3):可理解性(续)第三个挑战问题:第三个挑战问题:今后今后10年年能否产生能否产生“白盒子白盒子”?是和是和“黑盒子黑盒子”完全不同的东西,完全不同的东西,还是从还是从“黑盒子黑盒子”变出来?变出来?11/28/202315挑战问题(4):数据利用能力传统的机器学习技术传统的机器学习技术 对有标记数据进行学习对有标记数据进行学习“标记标记”事件所对应的结果事件所对应的结果共性问题:共性问题:随着数据收集能力飞速提高、随着数据收集能力飞速提高、Internet的出现,在大的出现,在大多数领域中都可以很容易地获得大量未标记数据多数领域中都可以很容易地
9、获得大量未标记数据 例子:医学图象分析例子:医学图象分析 垃圾邮件过滤垃圾邮件过滤p没有标记的数据是没用的吗?没有标记的数据是没用的吗?11/28/202316挑战问题(4):数据利用能力(续)共性问题:共性问题:在绝大多数领域中都会遇到在绝大多数领域中都会遇到“坏坏”数据,有时甚至只数据,有时甚至只有有“坏坏”数据数据 例子:海军舰队例子:海军舰队 Web“坏坏”数据数据 大量噪音、属性缺失、不一致、大量噪音、属性缺失、不一致、传统的传统的“坏坏”数据处理方式数据处理方式 “扔掉扔掉”p“坏坏”数据一点用也没有吗?数据一点用也没有吗?11/28/202317第四个挑战问题:第四个挑战问题:今
10、后今后10年年能否能否“数据通吃数据通吃”?如何如何“吃吃”?挑战问题(4):数据利用能力(续)11/28/202318挑战问题(5):代价敏感目前的机器学习技术目前的机器学习技术 降低错误率降低错误率p“错误错误”是没有区别的吗?是没有区别的吗?把把“好好”当成当成“坏坏”把把“坏坏”当成当成“好好”共性问题:共性问题:大多数领域中的错误代价都不一样大多数领域中的错误代价都不一样 例子:入侵检测例子:入侵检测 癌症诊断癌症诊断一样吗?11/28/202319第五个挑战问题:第五个挑战问题:今后今后10年年能否能否“趋利避害趋利避害”?在达到较低的总错误率的基础上,在达到较低的总错误率的基础上
11、,如何如何“趋趋”、如何、如何“避避”?挑战问题(5):代价敏感(续)11/28/202320挑战问题:More 在在任任何何一一个个挑挑战战问问题题上上取取得得突突破破性性进进展展,都都可可能能成成为为对对机器学习的重要贡献机器学习的重要贡献11/28/2023216.1 机器学习概述p学习可能只是一个简单的联想过程,给定了特学习可能只是一个简单的联想过程,给定了特定的输入,就会产生特定的输出。如:狗定的输入,就会产生特定的输出。如:狗n命令命令“坐坐”n行为行为“坐坐”11/28/202322p学习的成功是多种多样的:学习的成功是多种多样的:n学学习习识识别别客客户户的的购购买买模模式式以
12、以便便能能检检测测出出信信用用卡卡欺诈行为,欺诈行为,n对对客客户户进进行行扼扼要要描描述述以以便便能能对对市市场场推推广广活活动动进进行定位,行定位,n对对网网上上内内容容进进行行分分类类并并按按用用户户兴兴趣趣自自动动导导入入数数据,据,n贷款申请人的信用打分,贷款申请人的信用打分,n燃气涡轮的故障诊断等。燃气涡轮的故障诊断等。11/28/2023236.1.1 简单的学习模型p 学习系统的基本结构如图所示。学习系统的基本结构如图所示。环境环境学习学习知识库知识库执行执行p环境环境向系统的学习部分向系统的学习部分提供某些信息提供某些信息,p学学习习部部分分利利用用这这些些信信息息修修改改知
13、知识识库库,以以增增进进系系统统执执行行部部分完成任务的效能分完成任务的效能,p执执行行部部分分根根据据知知识识库库完完成成任任务务,同同时时把把获获得得的的信信息息反反馈馈给学习部分给学习部分。p在在具具体体的的应应用用中中,环环境境、知知识识库库和和执执行行部部分分决决定定了了具具体体的的工工作作内内容容,学学习习部部分分所所需需要要解解决决的的问问题题完完全全由由上上述述三三部分确定。部分确定。11/28/202324p 影影响响学学习习系系统统设设计计的的最最重重要要的的因因素素是是环环境境向向系统提供的信息系统提供的信息。p知知识识库库里里存存放放的的是是指指导导执执行行部部分分动动
14、作作的的一一般般原原则则,但但环环境境向向学学习习系系统统提提供供的的信信息息却却是是各各种种各各样样的。的。p如如果果信信息息的的质质量量比比较较高高,与与一一般般原原则则的的差差别别比比较小,则学习部分就比较容易处理。较小,则学习部分就比较容易处理。p如如果果向向学学习习系系统统提提供供的的是是杂杂乱乱无无章章的的指指导导执执行行具具体体动动作作的的具具体体信信息息,则则学学习习系系统统需需要要在在获获得得足足够够数数据据之之后后,删删除除不不必必要要的的细细节节,进进行行总总结结推推广广,形成指导动作的一般原则,放入知识库。形成指导动作的一般原则,放入知识库。p这这样样,学学习习部部分分
15、的的任任务务就就比比较较繁繁重重,设设计计起起来来也较为困难。也较为困难。11/28/202325p学习系统所进行的推理并不完全是可靠的,它总结出来学习系统所进行的推理并不完全是可靠的,它总结出来的规则可能正确,也可能不正确,这要通过执行效果加的规则可能正确,也可能不正确,这要通过执行效果加以检验。以检验。p正确的规则能使系统的效能提高,应予保留;不正确的正确的规则能使系统的效能提高,应予保留;不正确的规则应予修改或从数据库中删除。规则应予修改或从数据库中删除。p 知识库是影响学习系统设计的第二个因素。知识库是影响学习系统设计的第二个因素。p知识表示有多种形式,知识表示有多种形式,如如n特征向
16、量、特征向量、n一阶逻辑、一阶逻辑、n产生式规则、产生式规则、n语义网络语义网络n框架等。框架等。p选择表示方式时选择表示方式时要兼顾以下要兼顾以下4 4个方面:个方面:11/28/202326 (1)(1)表达能力强。表达能力强。p例如,如果研究的是一些孤立的木块,则可选例如,如果研究的是一些孤立的木块,则可选用特征向量表示方式。用用特征向量表示方式。用(,)这种形式的向量表示木块。用一阶逻辑公式这种形式的向量表示木块。用一阶逻辑公式描述木块之间的相互关系,如用公式描述木块之间的相互关系,如用公式p表示一个红色的木块在一个绿色的木块上面。表示一个红色的木块在一个绿色的木块上面。11/28/2
17、02327 (2)(2)易于推理。易于推理。p如,在推理过程中经常会遇到判别两种表示方如,在推理过程中经常会遇到判别两种表示方式是否等价的问题。在特征向量表示方式中,解式是否等价的问题。在特征向量表示方式中,解决这个问题比较容易;在一阶逻辑表示方式中,决这个问题比较容易;在一阶逻辑表示方式中,解决这个问题要花费较高的计算代价。解决这个问题要花费较高的计算代价。p因为学习系统通常要在大量的描述中查找,很因为学习系统通常要在大量的描述中查找,很高的计算代价会严重影响查找的范围。因此如果高的计算代价会严重影响查找的范围。因此如果只研究孤立的木块而不考虑相互的位置,则应该只研究孤立的木块而不考虑相互的
18、位置,则应该使用特征向量表示。使用特征向量表示。11/28/202328 (3)(3)容易修改知识库容易修改知识库p学学习习系系统统的的本本质质要要求求它它不不断断地地修修改改自自己己的的知知识识库库,当当推推广广得得出出一一般般执执行行规规则则后后,要要加加到到知知识识库库中去。当发现某些规则不适用时要将其删除。中去。当发现某些规则不适用时要将其删除。p因因此此学学习习系系统统的的知知识识表表示示,一一般般都都采采用用明明确确、统统一一的的方方式式,如如特特征征向向量量、产产生生式式规规则则等等,以以利利于于知知识识库库的的修修改改。新新增增加加的的知知识识可可能能与与知知识识库库中中原原有
19、有的的知知识识相相矛矛盾盾,因因此此有有必必要要对对整整个个知知识识库库作作全全面面调调整整。删删除除某某一一知知识识也也可可能能使使许许多多其其他他知知识识失效,因此需要进一步作全面检查。失效,因此需要进一步作全面检查。11/28/202329(4)(4)知识表示易于扩展知识表示易于扩展p随随着着系系统统学学习习能能力力的的提提高高,单单一一的的知知识识表表示示己己经经不不能能满满足足需需要要;一一个个系系统统可可能能同同时时使使用用几几种种知知识识表表示示方方式式。有有时时还还要要求求系系统统自自己己能能够够构构造造出出新新的表示方式,以适应外界信息不断变化的需要。的表示方式,以适应外界信
20、息不断变化的需要。p因因此此要要求求系系统统包包含含如如何何构构造造表表示示方方式式的的元元级级描描述述。现现在在,人人们们把把这这种种元元级级知知识识也也看看成成是是知知识识库库的的一一部部分分。这这种种元元级级知知识识使使学学习习系系统统的的能能力力得得到到极极大大提提高高,使使其其能能够够学学会会更更加加复复杂杂的的东东西西,不不断断地扩大它的知识领域和执行能力。地扩大它的知识领域和执行能力。11/28/202330p学学习习系系统统不不能能在在全全然然没没有有任任何何知知识识的的情情况况下下凭凭空空获获取取知知识识,每每一一个个学学习习系系统统都都要要求求具具有有某某些些知知识识以以理
21、理解解环环境境提提供供的的信信息息,分分析析比比较较,作作出出假假设设,检验并修改这些假设。检验并修改这些假设。p因此,因此,学习系统是对现有知识的扩展和改进学习系统是对现有知识的扩展和改进。11/28/2023316.1.2 什么是机器学习p学习是系统在不断重复学习是系统在不断重复的工作中对本身能力的增的工作中对本身能力的增强或者改进,使得系统在强或者改进,使得系统在下一次执行同样任务或类下一次执行同样任务或类似任务时,比现在做得更似任务时,比现在做得更好或效率更高。好或效率更高。p例子:例子:p机器学习是一门研究机机器学习是一门研究机器获取新知识和新技能,器获取新知识和新技能,并识别现有知
22、识的人工智并识别现有知识的人工智能分支。能分支。1959年年Samuel设计了一设计了一个下棋程序,这个程序具个下棋程序,这个程序具有学习能力,它可以在不有学习能力,它可以在不断的对弈中改善自己的棋断的对弈中改善自己的棋艺。艺。4年后,这个程序战胜年后,这个程序战胜了设计者本人。又过了了设计者本人。又过了3年,年,这个程序战胜了美国一个这个程序战胜了美国一个保持保持8年之久的常胜不败的年之久的常胜不败的冠军。这个程序向人们展冠军。这个程序向人们展示了机器学习的能力。示了机器学习的能力。11/28/202332发展分四阶段:发展分四阶段:(1)(1)在在2020世纪世纪5050年代中叶到年代中叶
23、到6060年代中叶,属于热烈时期。年代中叶,属于热烈时期。p在在这这个个时时期期,所所研研究究的的是是“没没有有知知识识”的的学学习习,即即“无无知知”学学习习;其其研研究究目目标标是是各各类类自自组组织织系系统统和和自自适适应应系系统统;其其主主要要研研究究方方法法是是不不断断修修改改系系统统的的控控制制参参数数以以改改进进系系统统的的执执行行能能力力,不不涉涉及及与与具具体体任任务务有有关关的的知知识。识。p指指导导本本阶阶段段研研究究的的理理论论基基础础是是早早在在2020世世纪纪4040年年代代就就开始研究的神经网络模型。开始研究的神经网络模型。p这这个个阶阶段段的的研研究究导导致致了
24、了“模模式式识识别别”的的诞诞生生,同同时时形成了两种机器学习方法形成了两种机器学习方法判别函数法和进化学习。判别函数法和进化学习。pSamuelSamuel的下棋程序就是使用判别函数法的典型例子。的下棋程序就是使用判别函数法的典型例子。6.1.3 机器学习研究概况11/28/202333(2)(2)在在2020世纪世纪6060年代中叶至年代中叶至7070年年代中叶,被称为冷静时期。代中叶,被称为冷静时期。本本阶段的研究目标是模拟人类的阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结概念学习过程,并采用逻辑结构或图结构作为机器内部描述。构或图结构作为机器内部描述。机器能够采用符号来描述概念
25、机器能够采用符号来描述概念(符号概念获取符号概念获取),并提出关于,并提出关于学习概念的各种假设。学习概念的各种假设。本阶段的代表性工作本阶段的代表性工作神经网络学习机因理论缺陷未神经网络学习机因理论缺陷未能达到预期效果而转入低潮。能达到预期效果而转入低潮。Winston的结的结构学习系统和构学习系统和Hayes Roth等等人的基于逻辑人的基于逻辑的归纳学习系的归纳学习系统。统。11/28/202334(3)(3)从从2020世纪世纪7070年代中叶至年代中叶至8080年代中叶,称为复兴时年代中叶,称为复兴时期。期。p在这个时期,人们从学习单个概念扩展到学习多在这个时期,人们从学习单个概念扩
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习
限制150内