书签分享收藏举报版权申诉 / 174

立即下载

当前位置：首页 > 教育专区 > 大学资料 > 机器学习机器学习.ppt

机器学习机器学习.ppt

上传人：奉***

文档编号：96452014

上传时间：2023-11-29

格式：PPT

页数：174

大小：3.20MB

( 4.5 )

《机器学习机器学习.ppt》由会员分享，可在线阅读，更多相关《机器学习机器学习.ppt（174页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第九章第九章机器学习机器学习11/28/20231 第六章第六章机器学习机器学习p主要内容：主要内容：n机器学习概述机器学习概述n归纳学习归纳学习p示例学习示例学习p基于决策树的归纳学习方法基于决策树的归纳学习方法ID3n类比学习类比学习n基于范例的学习基于范例的学习n解释学习解释学习n支持向量机支持向量机11/28/20232学习经典定义：利用经验改善系统自身的性能经典定义：利用经验改善系统自身的性能 T.Mitchell,Book 97随着该领域的发展，主要做智能数据分析随着该领域的发展，主要做智能数据分析典型任务典型任务：预测：预测例如：天气预报例如：天气预报11/28/20233机器

2、学习（续）数据挖掘数据库机器学习数据分析技术数据管理技术11/28/20234 美国航空航天局美国航空航天局JPL实验室的科学家在实验室的科学家在Science（2001年年9月）上撰文指出：月）上撰文指出：机器学习对科学研究的整个过程正起到机器学习对科学研究的整个过程正起到越来越大的支持作用，越来越大的支持作用，该领域在今后的若干年内将取，该领域在今后的若干年内将取得稳定而快速的发展得稳定而快速的发展重要性生物信息学计算金融学分子生物学行星地质学工业过程控制机器人遥感信息处理信息安全机器学习11/28/20235重要性：例子网络安全入侵检测：是否是入侵？是何种入侵？如何检测？历史数据：

3、以往的正常访问模式及其表现、以往的入侵模式及其表现对当前访问模式分类这是一个典型的预测型机器学习问题常用技术：神经网络决策树支持向量机 k近邻序列分析聚类 11/28/20236重要性：例子生物信息学常用技术：神经网络支持向量机隐马尔可夫模型k近邻决策树序列分析聚类 11/28/20237重要性（续）机器学习在过去十年中发展极为迅速，今后会快速稳定地机器学习在过去十年中发展极为迅速，今后会快速稳定地发展、对科学做出更大贡献的领域发展、对科学做出更大贡献的领域E.Mjolsness&D.DesCoste,Science 01人工智能中最活跃、应用潜力最明显的领域（之一）人工智能中最活跃

4、、应用潜力最明显的领域（之一）T.G.Dietterich,AIMag 97美国、欧洲各国都投入了大量人力物力美国、欧洲各国都投入了大量人力物力大型公司如波音、微软、通用电器等都有研究课题大型公司如波音、微软、通用电器等都有研究课题已有一些研究成果进入产品已有一些研究成果进入产品11/28/20238机器学习角色的转变如如果果我我们们想想做做出出重重要要的的贡贡献献，首首先先需需要要把把握握住住该该领领域域发发展展的脉搏的脉搏机器学习现在似乎已经发展到一个新阶段机器学习现在似乎已经发展到一个新阶段p机机器器学学习习起起源源于于人人工工智智能能对对人人类类学学习习能能力力的的追追求求，上上一

5、一阶阶段段的的研研究究几几乎乎完完全全局局限限在在人人工工智智能能这这一一领领域域中中（学学习习本本身身是目的是目的）p而而现现在在，机机器器学学习习已已经经开开始始进进入入了了计计算算机机科科学学的的不不同同领领域域，甚甚至至其其他他学学科科，成成为为一一种种支支持持技技术术、服服务务技技术术（学学习习本本身身是手段是手段）11/28/20239挑战问题(1)：泛化能力共性问题：共性问题：几乎所有的领域，都希望越准越好几乎所有的领域，都希望越准越好p提高泛化能力是永远的追求提高泛化能力是永远的追求目前泛化能力最强的技术：目前泛化能力最强的技术：支持向量机（支持向量机（SVM）产生途径：理论产

6、生途径：理论-实践实践集成学习（集成学习（ensemble learning）产生途径：实践产生途径：实践-理论理论11/28/202310挑战问题(1)：泛化能力（续）第一个挑战问题：第一个挑战问题：今后今后10年年能否更能否更“准准”？如果能，会从哪儿来？如果能，会从哪儿来？11/28/202311挑战问题(2)：速度共性问题：共性问题：几乎所有的领域，都希望越快越好几乎所有的领域，都希望越快越好p加快速度也是永远的追求加快速度也是永远的追求“训练速度训练速度”vs.“测试速度测试速度训练速度快的往往测试速度慢：训练速度快的往往测试速度慢：k近邻近邻测试速度快的往往训练速度慢：神经网络

7、测试速度快的往往训练速度慢：神经网络11/28/202312挑战问题(2)：速度（续）第二个挑战问题：第二个挑战问题：今后今后10年年能否更能否更“快快”？能能做做到到“训训练练快快”、“测测试试也也快快”吗吗？如果能，如何做？如果能，如何做？11/28/202313挑战问题(3)：可理解性共性问题：共性问题：绝大多数领域都希望有绝大多数领域都希望有“可理解性可理解性”例子：医疗诊断例子：医疗诊断地震预测地震预测目前强大的技术几乎都是（或基本上是）目前强大的技术几乎都是（或基本上是）“黑盒子黑盒子”神经网络、支持向量机、集成学习神经网络、支持向量机、集成学习p“黑盒子黑盒子”能满足需要吗？能

8、满足需要吗？11/28/202314挑战问题(3)：可理解性（续）第三个挑战问题：第三个挑战问题：今后今后10年年能否产生能否产生“白盒子白盒子”？是和是和“黑盒子黑盒子”完全不同的东西，完全不同的东西，还是从还是从“黑盒子黑盒子”变出来？变出来？11/28/202315挑战问题(4)：数据利用能力传统的机器学习技术传统的机器学习技术对有标记数据进行学习对有标记数据进行学习“标记标记”事件所对应的结果事件所对应的结果共性问题：共性问题：随着数据收集能力飞速提高、随着数据收集能力飞速提高、Internet的出现，在大的出现，在大多数领域中都可以很容易地获得大量未标记数据多数领域中都可以很容易地

9、获得大量未标记数据例子：医学图象分析例子：医学图象分析垃圾邮件过滤垃圾邮件过滤p没有标记的数据是没用的吗？没有标记的数据是没用的吗？11/28/202316挑战问题(4)：数据利用能力（续）共性问题：共性问题：在绝大多数领域中都会遇到在绝大多数领域中都会遇到“坏坏”数据，有时甚至只数据，有时甚至只有有“坏坏”数据数据例子：海军舰队例子：海军舰队 Web“坏坏”数据数据大量噪音、属性缺失、不一致、大量噪音、属性缺失、不一致、传统的传统的“坏坏”数据处理方式数据处理方式 “扔掉扔掉”p“坏坏”数据一点用也没有吗？数据一点用也没有吗？11/28/202317第四个挑战问题：第四个挑战问题：今

10、后今后10年年能否能否“数据通吃数据通吃”？如何如何“吃吃”？挑战问题(4)：数据利用能力（续）11/28/202318挑战问题(5)：代价敏感目前的机器学习技术目前的机器学习技术降低错误率降低错误率p“错误错误”是没有区别的吗？是没有区别的吗？把把“好好”当成当成“坏坏”把把“坏坏”当成当成“好好”共性问题：共性问题：大多数领域中的错误代价都不一样大多数领域中的错误代价都不一样例子：入侵检测例子：入侵检测癌症诊断癌症诊断一样吗？11/28/202319第五个挑战问题：第五个挑战问题：今后今后10年年能否能否“趋利避害趋利避害”？在达到较低的总错误率的基础上，在达到较低的总错误率的基础上

11、，如何如何“趋趋”、如何、如何“避避”？挑战问题(5)：代价敏感（续）11/28/202320挑战问题：More 在在任任何何一一个个挑挑战战问问题题上上取取得得突突破破性性进进展展，都都可可能能成成为为对对机器学习的重要贡献机器学习的重要贡献11/28/2023216.1 机器学习概述p学习可能只是一个简单的联想过程，给定了特学习可能只是一个简单的联想过程，给定了特定的输入，就会产生特定的输出。如：狗定的输入，就会产生特定的输出。如：狗n命令命令“坐坐”n行为行为“坐坐”11/28/202322p学习的成功是多种多样的：学习的成功是多种多样的：n学学习习识识别别客客户户的的购购买买模模式式以

12、以便便能能检检测测出出信信用用卡卡欺诈行为，欺诈行为，n对对客客户户进进行行扼扼要要描描述述以以便便能能对对市市场场推推广广活活动动进进行定位，行定位，n对对网网上上内内容容进进行行分分类类并并按按用用户户兴兴趣趣自自动动导导入入数数据，据，n贷款申请人的信用打分，贷款申请人的信用打分，n燃气涡轮的故障诊断等。燃气涡轮的故障诊断等。11/28/2023236.1.1 简单的学习模型p 学习系统的基本结构如图所示。学习系统的基本结构如图所示。环境环境学习学习知识库知识库执行执行p环境环境向系统的学习部分向系统的学习部分提供某些信息提供某些信息，p学学习习部部分分利利用用这这些些信信息息修修改改知

13、知识识库库，以以增增进进系系统统执执行行部部分完成任务的效能分完成任务的效能，p执执行行部部分分根根据据知知识识库库完完成成任任务务，同同时时把把获获得得的的信信息息反反馈馈给学习部分给学习部分。p在在具具体体的的应应用用中中，环环境境、知知识识库库和和执执行行部部分分决决定定了了具具体体的的工工作作内内容容，学学习习部部分分所所需需要要解解决决的的问问题题完完全全由由上上述述三三部分确定。部分确定。11/28/202324p 影影响响学学习习系系统统设设计计的的最最重重要要的的因因素素是是环环境境向向系统提供的信息系统提供的信息。p知知识识库库里里存存放放的的是是指指导导执执行行部部分分动动

14、作作的的一一般般原原则则，但但环环境境向向学学习习系系统统提提供供的的信信息息却却是是各各种种各各样样的。的。p如如果果信信息息的的质质量量比比较较高高，与与一一般般原原则则的的差差别别比比较小，则学习部分就比较容易处理。较小，则学习部分就比较容易处理。p如如果果向向学学习习系系统统提提供供的的是是杂杂乱乱无无章章的的指指导导执执行行具具体体动动作作的的具具体体信信息息，则则学学习习系系统统需需要要在在获获得得足足够够数数据据之之后后，删删除除不不必必要要的的细细节节，进进行行总总结结推推广广，形成指导动作的一般原则，放入知识库。形成指导动作的一般原则，放入知识库。p这这样样，学学习习部部分分

15、的的任任务务就就比比较较繁繁重重，设设计计起起来来也较为困难。也较为困难。11/28/202325p学习系统所进行的推理并不完全是可靠的，它总结出来学习系统所进行的推理并不完全是可靠的，它总结出来的规则可能正确，也可能不正确，这要通过执行效果加的规则可能正确，也可能不正确，这要通过执行效果加以检验。以检验。p正确的规则能使系统的效能提高，应予保留；不正确的正确的规则能使系统的效能提高，应予保留；不正确的规则应予修改或从数据库中删除。规则应予修改或从数据库中删除。p 知识库是影响学习系统设计的第二个因素。知识库是影响学习系统设计的第二个因素。p知识表示有多种形式，知识表示有多种形式，如如n特征向

16、量、特征向量、n一阶逻辑、一阶逻辑、n产生式规则、产生式规则、n语义网络语义网络n框架等。框架等。p选择表示方式时选择表示方式时要兼顾以下要兼顾以下4 4个方面：个方面：11/28/202326 (1)(1)表达能力强。表达能力强。p例如，如果研究的是一些孤立的木块，则可选例如，如果研究的是一些孤立的木块，则可选用特征向量表示方式。用用特征向量表示方式。用(，)这种形式的向量表示木块。用一阶逻辑公式这种形式的向量表示木块。用一阶逻辑公式描述木块之间的相互关系，如用公式描述木块之间的相互关系，如用公式p表示一个红色的木块在一个绿色的木块上面。表示一个红色的木块在一个绿色的木块上面。11/28/2

17、02327 (2)(2)易于推理。易于推理。p如，在推理过程中经常会遇到判别两种表示方如，在推理过程中经常会遇到判别两种表示方式是否等价的问题。在特征向量表示方式中，解式是否等价的问题。在特征向量表示方式中，解决这个问题比较容易；在一阶逻辑表示方式中，决这个问题比较容易；在一阶逻辑表示方式中，解决这个问题要花费较高的计算代价。解决这个问题要花费较高的计算代价。p因为学习系统通常要在大量的描述中查找，很因为学习系统通常要在大量的描述中查找，很高的计算代价会严重影响查找的范围。因此如果高的计算代价会严重影响查找的范围。因此如果只研究孤立的木块而不考虑相互的位置，则应该只研究孤立的木块而不考虑相互的

18、位置，则应该使用特征向量表示。使用特征向量表示。11/28/202328 (3)(3)容易修改知识库容易修改知识库p学学习习系系统统的的本本质质要要求求它它不不断断地地修修改改自自己己的的知知识识库库，当当推推广广得得出出一一般般执执行行规规则则后后，要要加加到到知知识识库库中去。当发现某些规则不适用时要将其删除。中去。当发现某些规则不适用时要将其删除。p因因此此学学习习系系统统的的知知识识表表示示，一一般般都都采采用用明明确确、统统一一的的方方式式，如如特特征征向向量量、产产生生式式规规则则等等，以以利利于于知知识识库库的的修修改改。新新增增加加的的知知识识可可能能与与知知识识库库中中原原有

19、有的的知知识识相相矛矛盾盾，因因此此有有必必要要对对整整个个知知识识库库作作全全面面调调整整。删删除除某某一一知知识识也也可可能能使使许许多多其其他他知知识识失效，因此需要进一步作全面检查。失效，因此需要进一步作全面检查。11/28/202329(4)(4)知识表示易于扩展知识表示易于扩展p随随着着系系统统学学习习能能力力的的提提高高，单单一一的的知知识识表表示示己己经经不不能能满满足足需需要要；一一个个系系统统可可能能同同时时使使用用几几种种知知识识表表示示方方式式。有有时时还还要要求求系系统统自自己己能能够够构构造造出出新新的表示方式，以适应外界信息不断变化的需要。的表示方式，以适应外界信

20、息不断变化的需要。p因因此此要要求求系系统统包包含含如如何何构构造造表表示示方方式式的的元元级级描描述述。现现在在，人人们们把把这这种种元元级级知知识识也也看看成成是是知知识识库库的的一一部部分分。这这种种元元级级知知识识使使学学习习系系统统的的能能力力得得到到极极大大提提高高，使使其其能能够够学学会会更更加加复复杂杂的的东东西西，不不断断地扩大它的知识领域和执行能力。地扩大它的知识领域和执行能力。11/28/202330p学学习习系系统统不不能能在在全全然然没没有有任任何何知知识识的的情情况况下下凭凭空空获获取取知知识识，每每一一个个学学习习系系统统都都要要求求具具有有某某些些知知识识以以理

21、理解解环环境境提提供供的的信信息息，分分析析比比较较，作作出出假假设设，检验并修改这些假设。检验并修改这些假设。p因此，因此，学习系统是对现有知识的扩展和改进学习系统是对现有知识的扩展和改进。11/28/2023316.1.2 什么是机器学习p学习是系统在不断重复学习是系统在不断重复的工作中对本身能力的增的工作中对本身能力的增强或者改进，使得系统在强或者改进，使得系统在下一次执行同样任务或类下一次执行同样任务或类似任务时，比现在做得更似任务时，比现在做得更好或效率更高。好或效率更高。p例子：例子：p机器学习是一门研究机机器学习是一门研究机器获取新知识和新技能，器获取新知识和新技能，并识别现有知

22、识的人工智并识别现有知识的人工智能分支。能分支。1959年年Samuel设计了一设计了一个下棋程序，这个程序具个下棋程序，这个程序具有学习能力，它可以在不有学习能力，它可以在不断的对弈中改善自己的棋断的对弈中改善自己的棋艺。艺。4年后，这个程序战胜年后，这个程序战胜了设计者本人。又过了了设计者本人。又过了3年，年，这个程序战胜了美国一个这个程序战胜了美国一个保持保持8年之久的常胜不败的年之久的常胜不败的冠军。这个程序向人们展冠军。这个程序向人们展示了机器学习的能力。示了机器学习的能力。11/28/202332发展分四阶段：发展分四阶段：(1)(1)在在2020世纪世纪5050年代中叶到年代中叶

23、到6060年代中叶，属于热烈时期。年代中叶，属于热烈时期。p在在这这个个时时期期，所所研研究究的的是是“没没有有知知识识”的的学学习习，即即“无无知知”学学习习；其其研研究究目目标标是是各各类类自自组组织织系系统统和和自自适适应应系系统统；其其主主要要研研究究方方法法是是不不断断修修改改系系统统的的控控制制参参数数以以改改进进系系统统的的执执行行能能力力，不不涉涉及及与与具具体体任任务务有有关关的的知知识。识。p指指导导本本阶阶段段研研究究的的理理论论基基础础是是早早在在2020世世纪纪4040年年代代就就开始研究的神经网络模型。开始研究的神经网络模型。p这这个个阶阶段段的的研研究究导导致致了

24、了“模模式式识识别别”的的诞诞生生，同同时时形成了两种机器学习方法形成了两种机器学习方法判别函数法和进化学习。判别函数法和进化学习。pSamuelSamuel的下棋程序就是使用判别函数法的典型例子。的下棋程序就是使用判别函数法的典型例子。6.1.3 机器学习研究概况11/28/202333(2)(2)在在2020世纪世纪6060年代中叶至年代中叶至7070年年代中叶，被称为冷静时期。代中叶，被称为冷静时期。本本阶段的研究目标是模拟人类的阶段的研究目标是模拟人类的概念学习过程，并采用逻辑结概念学习过程，并采用逻辑结构或图结构作为机器内部描述。构或图结构作为机器内部描述。机器能够采用符号来描述概念

25、机器能够采用符号来描述概念(符号概念获取符号概念获取)，并提出关于，并提出关于学习概念的各种假设。学习概念的各种假设。本阶段的代表性工作本阶段的代表性工作神经网络学习机因理论缺陷未神经网络学习机因理论缺陷未能达到预期效果而转入低潮。能达到预期效果而转入低潮。Winston的结的结构学习系统和构学习系统和Hayes Roth等等人的基于逻辑人的基于逻辑的归纳学习系的归纳学习系统。统。11/28/202334(3)(3)从从2020世纪世纪7070年代中叶至年代中叶至8080年代中叶，称为复兴时年代中叶，称为复兴时期。期。p在这个时期，人们从学习单个概念扩展到学习多在这个时期，人们从学习单个概念扩

26、展到学习多个概念，探索不同的学习策略和各种学习方法。机个概念，探索不同的学习策略和各种学习方法。机器的学习过程一般都建立在大规模的知识库上，实器的学习过程一般都建立在大规模的知识库上，实现知识强化学习。现知识强化学习。p本阶段开始把学习系统与各种应用结合起来，促本阶段开始把学习系统与各种应用结合起来，促进了机器学习的发展。进了机器学习的发展。p在出现第一个专家学习系统之后，示例归约学习在出现第一个专家学习系统之后，示例归约学习系统成为研究的主流，自动知识获取成为机器学习系统成为研究的主流，自动知识获取成为机器学习的应用研究目标。的应用研究目标。p19801980年，在年，在CMUCMU召开了第

27、一届机器学习国际研讨会。召开了第一届机器学习国际研讨会。此后，机器归纳学习进入应用。此后，机器归纳学习进入应用。p19861986年，杂志年，杂志Machine LearningMachine Learning创刊。创刊。11/28/202335(4)(4)机器学习的最新阶段始于机器学习的最新阶段始于19861986年。年。在这一时期，符号学习由在这一时期，符号学习由“无知无知”学习转向有专门学习转向有专门领域知识的增长型学习，因而出现了有一定知识背景领域知识的增长型学习，因而出现了有一定知识背景的分析学习。神经网络中的反向传播算法获得应用。的分析学习。神经网络中的反向传播算法获得应用。基于生

28、物发育进化论的进化学习系统和遗传算法，基于生物发育进化论的进化学习系统和遗传算法，因吸取了归纳学习与连接机制学习的长处而受到重视。因吸取了归纳学习与连接机制学习的长处而受到重视。基于行为主义的强化学习系统因发展新算法和应用连基于行为主义的强化学习系统因发展新算法和应用连接机制学习遗传算法的新成就而显示出新的生命力。接机制学习遗传算法的新成就而显示出新的生命力。数据挖掘研究的蓬勃发展。数据挖掘研究的蓬勃发展。11/28/202336p它综合应用心理学、生物学和神经生理学以及数学、它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习的理论基础。自动化和计算机科学形成机器学习

29、的理论基础。p结合各种学习方法的多种形式的集成学习系统研究结合各种学习方法的多种形式的集成学习系统研究正在兴起。正在兴起。p机器学习与人工智能各种基础问题的统一性观点正机器学习与人工智能各种基础问题的统一性观点正在形成。在形成。p各种学习方法的应用范围不断扩大，一部分已形成各种学习方法的应用范围不断扩大，一部分已形成商品。商品。p数据挖掘和知识发现技术在生物医学、金融管理、数据挖掘和知识发现技术在生物医学、金融管理、商业销售等领域得到成功应用。商业销售等领域得到成功应用。ML进入新阶段表现在：11/28/2023376.1.3机器学习的研究概况学习过程与推理过程是紧密相连学习过程与推理过程是紧

30、密相连的，机器学习所采用的策略可分的，机器学习所采用的策略可分为：为：机械学习机械学习示教学习示教学习类比学习类比学习示例学习示例学习学习中所用的推理越多，系统的学习中所用的推理越多，系统的能力就越强。能力就越强。机械学习机械学习就是记就是记忆。这种学习策忆。这种学习策略不需要任何推略不需要任何推理过程。外界输理过程。外界输入知识的表示方入知识的表示方式与系统内部的式与系统内部的表示方式完全一表示方式完全一致，不需要任何致，不需要任何处理与转换。处理与转换。11/28/202338p虽虽然然机机械械学学习习在在方方法法上上看看来来很很简简单单，但但由由于于计计算算机机的的存存储储容容量量相相当

31、当大大，检检索索速速度度又又相相当当快快，而而且且记记忆忆精精确、无丝毫误差，所以也能产生人们难以预料的效果。确、无丝毫误差，所以也能产生人们难以预料的效果。pSamuelSamuel的的下下棋棋程程序序就就是是采采用用了了这这种种机机械械记记忆忆策策略略。为为了了评评价价棋棋局局的的优优劣劣，他他给给每每一一个个棋棋局局都都打打了了分分，对对自自己己有有利利的的分分数数高高，不不利利的的分分数数低低，走走棋棋时时尽尽量量选选择择使使自自己己分分数数高高的的棋棋局局。这这个个程程序序可可记记住住5300053000多多个个棋棋局局及及其其分分值值，并并能能在在对对弈弈中中不不断断地地修修改改这

32、这些些分分值值以以提提高高自己的水平，这对于人来说是无论如何也办不到的。自己的水平，这对于人来说是无论如何也办不到的。11/28/202339机械学习机械学习示教学习示教学习类比学习类比学习示例学习示例学习示教学习策略示教学习策略:对于使用示教对于使用示教学习策略的系统来说，外界输学习策略的系统来说，外界输入知识的表达方式与内部表达入知识的表达方式与内部表达方式不完全一致，系统在接受方式不完全一致，系统在接受外部知识时需要一点推理、翻外部知识时需要一点推理、翻译和转化工作。译和转化工作。MYCIN，DENDRAL等专家系统在获取等专家系统在获取知识上都采用这种学习策略。知识上都采用这种学习策

33、略。类比学习类比学习系统只能得到完成类似系统只能得到完成类似任务的有关知识，因此，学习系任务的有关知识，因此，学习系统必须能够发现当前任务与已知统必须能够发现当前任务与已知任务的相似点，由此制定出完成任务的相似点，由此制定出完成当前任务的方案，因此，它比上当前任务的方案，因此，它比上述两种学习策略需要更多的推理。述两种学习策略需要更多的推理。11/28/202340p 采用采用示例学习策略示例学习策略的计算机系统，事先完全没有完成任务的计算机系统，事先完全没有完成任务的任何规律性的信息，所得到的只是一些具体的工作例子及工的任何规律性的信息，所得到的只是一些具体的工作例子及工作经验。系统需要对这

34、些例子及经验进行分析、总结和推广，作经验。系统需要对这些例子及经验进行分析、总结和推广，得到完成任务的一般性规律，并在进一步的工作中验证或修改得到完成任务的一般性规律，并在进一步的工作中验证或修改这些规律，因此需要的推理是几种策略中最多的这些规律，因此需要的推理是几种策略中最多的p 此外，还有此外，还有基于解释的学习、强化学习和基于神经网络的基于解释的学习、强化学习和基于神经网络的学习学习等。等。机械学习机械学习示教学习示教学习类比学习类比学习示例学习示例学习 11/28/2023416.2-6.3归纳学习归纳学习p归纳学习归纳学习n人类智能的重要体现；人类智能的重要体现；n机器学习的核心技术

35、之一；机器学习的核心技术之一；n从从提供的提供的示例中抽象出结论示例中抽象出结论的的知识获取过程知识获取过程。n依据依据：具体的示例；：具体的示例；n目标目标：一般性推论；：一般性推论；p能解释已知示例；能解释已知示例；p预见新事实。预见新事实。示例示例一般性推论一般性推论新的事实新的事实归纳归纳演绎演绎11/28/2023421.1.归纳学习的模式和规则归纳学习的模式和规则p一般的归纳推理结论只是一般的归纳推理结论只是保假保假的。的。p从相同的实例集合中，可以提出不同的理论来解释从相同的实例集合中，可以提出不同的理论来解释它，应按某一标准选取它，应按某一标准选取最好最好的作为学习结果。的作为

36、学习结果。p人类知识的增长主要得益于归纳学习方法。人类知识的增长主要得益于归纳学习方法。p虽然归纳得出的新知识不像演绎推理结论那样可靠，虽然归纳得出的新知识不像演绎推理结论那样可靠，但存在很强的可证伪性，对于认识的发展和完善具有但存在很强的可证伪性，对于认识的发展和完善具有重要的启发意义。重要的启发意义。归纳学习归纳学习(induction learning)(induction learning)是应用归纳推理进行是应用归纳推理进行学习的一种方法。根据归纳学习有无教师指导，可把学习的一种方法。根据归纳学习有无教师指导，可把它分为示例学习和观察与发现学习。前者属于有师学它分为示例学习和观察与发

37、现学习。前者属于有师学习，后者属于无师学习。习，后者属于无师学习。11/28/202343(1)(1)归纳学习的模式归纳学习的模式p给定：给定：观察陈述观察陈述F F，用以表示有关某些对象、状态、，用以表示有关某些对象、状态、过程等的特定知识；过程等的特定知识；假定的初始归纳断言假定的初始归纳断言(可能为空可能为空)；背景知识，用于定义有关观察陈述、候选归背景知识，用于定义有关观察陈述、候选归纳断言以及任何相关问题领域知识、假设和纳断言以及任何相关问题领域知识、假设和约束，其中包括能够刻画所求归纳断言的性约束，其中包括能够刻画所求归纳断言的性质的优先准则。质的优先准则。p求：求：归纳断言归纳断

38、言H H，能重言蕴涵或弱蕴涵观察陈，能重言蕴涵或弱蕴涵观察陈述，并满足背景知识。述，并满足背景知识。11/28/202344p 假设假设H H永真蕴涵事实永真蕴涵事实F F，说明，说明F F是是H H的逻辑推理，的逻辑推理，则有：则有：p H F (H F (读作读作H H特殊化为特殊化为F)F)或或F H FD2 D1=D2。如果如果D2中所有描述基本单元中所有描述基本单元(如谓词子句的谓词如谓词子句的谓词)都是都是D1中的，只是对中的，只是对D1中基本单元中基本单元有所取舍，或改变连接关系，有所取舍，或改变连接关系，那么就是选择性概括。那么就是选择性概括。如果如果D2中有新的描述基中有新的

39、描述基本单元本单元(如反映如反映D1各单各单元间的某种关系的新单元间的某种关系的新单元元)，那么就称之为构，那么就称之为构造性概括。造性概括。11/28/2023472.2.归纳学习方法归纳学习方法(1)(1)示例学习示例学习p 示例学习示例学习(learning from examples)(learning from examples)，它是通过环境，它是通过环境中若干与某概念有关的例子，经归纳得出一般性概念的一种中若干与某概念有关的例子，经归纳得出一般性概念的一种学习方法。学习方法。p外部环境提供的是一组例子外部环境提供的是一组例子(正例和反例正例和反例)，它们是一组特，它们是一组特殊的

40、知识，每一个例子表达了殊的知识，每一个例子表达了仅适用于该例子的知识仅适用于该例子的知识。p示例学习就是要从这些特殊知识中归纳出适用于更大范围示例学习就是要从这些特殊知识中归纳出适用于更大范围的一般性知识，以的一般性知识，以覆盖所有的正例并排除所有反例覆盖所有的正例并排除所有反例。p如，如果用一批动物作为示例，并且告诉学习系统哪一个如，如果用一批动物作为示例，并且告诉学习系统哪一个动物是动物是“马马”，哪一个动物不是。当示例足够多时，学习系，哪一个动物不是。当示例足够多时，学习系统就能概括出关于统就能概括出关于“马马”的概念模型，使自己能够识别马，的概念模型，使自己能够识别马，并且能将马与其他

41、动物区别开来。并且能将马与其他动物区别开来。归纳学习的方法归纳学习的方法11/28/202348(2)(2)观察发现学习观察发现学习p观察发现学习观察发现学习(learning from observation and discovery)(learning from observation and discovery)，其目标是确定一个定律或理论的一般性描述，刻画观察集，其目标是确定一个定律或理论的一般性描述，刻画观察集，指定某类对象的性质。指定某类对象的性质。p观察发现学习分为观察发现学习分为n概念聚类概念聚类n机器发现机器发现p前者用于对事例进行聚类，形成概念描述；前者用于对事例进行聚类

42、，形成概念描述；p后者用于发现规律，产生定律或规则。后者用于发现规律，产生定律或规则。1 1）概念聚类）概念聚类p 基本思想是把事例按照一定的方式和准则分组，如基本思想是把事例按照一定的方式和准则分组，如划分为不同的类或不同的层次等，使不同的组代表不同的概念，划分为不同的类或不同的层次等，使不同的组代表不同的概念，并且对每一个组进行特征概括，得到一个概念的语义符号描述。并且对每一个组进行特征概括，得到一个概念的语义符号描述。如，对如下事例：如，对如下事例：11/28/202349p喜鹊、麻雀、布谷鸟、乌鸦、鸡、鸭、鹅喜鹊、麻雀、布谷鸟、乌鸦、鸡、鸭、鹅p可根据它们是否家养分为如下两类：可根据它

43、们是否家养分为如下两类：n鸟鸟=喜鹊，麻雀，布谷鸟，乌鸦喜鹊，麻雀，布谷鸟，乌鸦n家禽家禽=鸡，鸭，鹅，鸡，鸭，鹅，p 这里，这里，“鸟鸟”和和“家禽家禽”就是由分类得到的新概念，就是由分类得到的新概念，而且根据相应动物的特征还可得知：而且根据相应动物的特征还可得知：n“鸟有羽毛、有翅膀、会飞、会叫、野生鸟有羽毛、有翅膀、会飞、会叫、野生”n“家禽有羽毛、有翅膀、不会飞、会叫、家养家禽有羽毛、有翅膀、不会飞、会叫、家养”p如果把它们的共同特性抽取出来，就可进一步形成如果把它们的共同特性抽取出来，就可进一步形成“鸟鸟类类”的概念。的概念。11/28/2023502 2）机器发现）机器发现机器发

44、现是指从观察事例或经验数据中归纳出机器发现是指从观察事例或经验数据中归纳出规律或规则的学习方法。规律或规则的学习方法。p可分为：可分为：n经验发现经验发现n知识发现知识发现p前者是指从经验数据中发现规律和定律，后者前者是指从经验数据中发现规律和定律，后者是指从已观察的事例中发现新的知识。是指从已观察的事例中发现新的知识。11/28/202351示例学习和示例学习和ID3p教学目的：教学目的：n掌握掌握示例示例学习的学习的基本策略基本策略；n理解构造决策树法理解构造决策树法ID3；p主要内容：主要内容：n示例学习的基本概念示例学习的基本概念p3 3种示例学习策略：种示例学习策略：n逐步逐步泛化泛

45、化的学习策略；的学习策略；n逐步逐步特化特化的学习策略；的学习策略；n双向学习双向学习策略；策略；n基于决策树的归纳学习方法基于决策树的归纳学习方法ID3 11/28/202352p教学要求教学要求：掌握掌握p主要内容主要内容：n理解理解例子空间例子空间和和假设空间假设空间的概念及其关系；的概念及其关系；n理解理解泛化泛化和和特化特化的概念以及与的概念以及与搜索搜索的关系；的关系；n掌握示例学习的掌握示例学习的三种基本策略三种基本策略。示例学习示例学习11/28/202353p示例学习任务：示例学习任务：n从一系列从一系列示例示例出发：出发：p正例正例；p反例反例；n生成一个反映这些生成一个反

46、映这些示例本质示例本质的的定义（概念描述）定义（概念描述）：p覆盖所有的正例，而不包含任何反例覆盖所有的正例，而不包含任何反例；p可用来指导对新例子的分类识别；可用来指导对新例子的分类识别；示例示例概念描述概念描述解描述解描述示例学习示例学习11/28/202354p1、概念描述的搜索和获取、概念描述的搜索和获取n例子空间例子空间和和假设空间假设空间p例子空间：例子空间：n所有可能的所有可能的正例正例、反例反例构成的空间；构成的空间；p假设空间（概念空间）：假设空间（概念空间）：n所有可能的所有可能的假设假设（概念描述概念描述）构成的空间；）构成的空间；p假设空间假设空间中中每一假设每一假设都

47、对应于例子空间中都对应于例子空间中一个子集一个子集n子集中的例子均是该子集中的例子均是该假设的例子假设的例子；假设空间假设空间例子空间例子空间假设假设A假设假设B例子例子1例子例子n.示例学习示例学习11/28/202355p1、概念描述的搜索和获取、概念描述的搜索和获取n假设假设的的泛化泛化和和特化特化：pD1对应例子集对应例子集是是D2对应例子集对应例子集的的子集子集；pD2比比D1泛化泛化；pD1比比D2特化特化；n假设空间假设空间中中假设假设间的间的泛化关系泛化关系：p反对称：反对称：nD2比比D1泛化、且泛化、且D1比比D2泛化，那么泛化，那么D1=D2；p可传递：可传递：nD3比比

48、D2泛化、且泛化、且D2比比D1泛化，那么泛化，那么D3比比D1泛化；泛化；假设空间假设空间假设假设D1假设假设D2例子空间例子空间D2例子集例子集D1例子集例子集假设空间假设空间假设假设D1假设假设D2示例学习示例学习11/28/202356p1、概念描述的搜索和获取、概念描述的搜索和获取n例例1 1：病态细胞的分类识别：病态细胞的分类识别（找到病态细胞的概念）（找到病态细胞的概念）p每个每个细胞细胞由由2个个细胞体细胞体组成；组成；p每个每个细胞体细胞体具有具有3个属性个属性胞核数胞核数(1-2)，尾巴数，尾巴数(1-2)及染色状（及染色状（浅浅或或深深）；）；p细胞细胞P1,P2,P3有

49、病状有病状X；pN1,N2是正常细胞；是正常细胞；P1+P2+N1-P3+N2-示例学习示例学习11/28/202357p1、概念描述的搜索和获取、概念描述的搜索和获取n例例1 1：病态细胞的分类识别：病态细胞的分类识别p细胞体细胞体3元组元组（核数、尾数、染色状）；（核数、尾数、染色状）；p细胞细胞2个细胞体个细胞体3元组组成的集合；元组组成的集合；n细胞细胞P1表示为表示为(2,2,深深)(1,1,浅浅)p例子空间例子空间由由P1,P2,P3,N1,N2组成；组成；nP1,P2,P3为为正例正例；nN1,N2为为反例反例；P1+P2+N1-P3+N2-学习任务学习任务从从例子空间例子空间中

50、中归纳归纳出有病状出有病状X的细胞的细胞概念描述概念描述示例学习示例学习11/28/202358p1、概念描述的搜索和获取、概念描述的搜索和获取n例例1 1：病态细胞的分类识别：病态细胞的分类识别p假设空间假设空间表示为表示为假设假设的集合；的集合；p假设不必给每个特性（属性）都指明应取值假设不必给每个特性（属性）都指明应取值：n假设假设a：(2,?,?)(?,1,深深)，表示：，表示：n如果：如果：p细胞中一个细胞体有细胞中一个细胞体有2个胞核个胞核；p另一个有另一个有1个尾巴个尾巴，且，且染色是染色是深深的；的；n则：则：p该细胞有病症该细胞有病症X。n“?”指指p相应的属性对病细胞的判

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 机器学习

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：机器学习机器学习.ppt
链接地址：https://www.deliwenku.com/p-96452014.html