2022年神经网络规则的抽取 .pdf
《2022年神经网络规则的抽取 .pdf》由会员分享,可在线阅读,更多相关《2022年神经网络规则的抽取 .pdf(19页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、神经网络规则抽取*周志华南京大学软件新技术国家重点实验室,南京210093 1 引言神经网络的发展受到了一个固有缺陷的限制,即神经网络学到的知识蕴涵在大量的连接权中,用户无法了解网络到底学到了什么、能处理什么样的任务,也无从知道网络如何进行预测、为什么得出这样或那样的推理结论。这就是通常所说的神经网络的“黑箱性”。一般来说,“可解释性”是可靠系统的必备特性,由于通常的神经网络模型都是“不可解释”的,这在一定程度上影响了用户对利用神经网络技术构建智能系统的信心。虽然 Baum 和Haussler BH89 曾经指出,“如果一个神经网络可以为大量训练例产生正确的结果,那么可以相信它也能为类似于训练
2、例的未知示例产生正确结果”,但这并没有消除用户对可理解性的偏好。随着数据挖掘在20 世纪 90 年代的兴起,学习系统的可理解性更加受到重视,因为在数据挖掘的经典定义“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”FPS96中,模式的可理解性被显式地放到了一个突出的位置上(注:Fayyad 等人原来的定义对象是KDD ,但随着该领域研究的发展,大多数研究者目前趋向于认为KDD和数据挖掘具有相同的含义,另外,原定义中“数据库”被现在的“巨量数据”所取代)。由于神经网络学习到的知识不能以容易理解的形式提交给决策者,其应用受到了很大的限制。改善神经网络可理解性的一个有效途径
3、就是从神经网络中抽取出易于理解的符号规则。这方面的研究工作最早开始于20 世纪 80 年代末,在过去十年中逐渐成为一个颇受关注的研究领域, 即神经网络规则抽取(rule extraction from neural networks ) 。 1998 年,IEEE Transaction on Neural Networks专门为神经网络规则抽取出版了一期专辑,此后的众多神经网络专业会议都出现了规则抽取专题,这意味着该领域已成为一个研究热点。本章综述了神经网络规则抽取这一领域的研究情况。第2 节简要介绍该领域的起源和发展过程,第3 节介绍抽取出的规则类型以及对规则的评价体系,第4 节介绍规则抽
4、取算法的分类和一些代表性算法,第5 节介绍研究者们对该领域一些问题的讨论,最后在第6 节提出该领域今后的一些重要研究内容。* 本文得到国家自然杰出青年科学基金(60325207)资助名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 19 页 - - - - - - - - - 2 起源和发展1988 年,Gallant Gal88 设计了一个连接主义专家系统(connectionist expert system) ,该系统与当时所流行的专家系统唯一的区别就是其知识库是由一
5、个神经网络实现的。连接主义专家系统思想的产生并不是偶然的。事实上,当时的很多研究者已经认识到,传统知识工程中的知识获取手段,即依靠知识工程师与领域专家进行交互来获取知识,已经成为专家系统开发的一个瓶颈,而利用机器学习技术让系统自动地获取知识,可能是一种更有希望的途径。由于神经网络具有很强的学习能力,因此Gallant 期望由它实现的知识库可以不再需要知识工程师与用户进行大量烦琐的交互(注:少量的交互仍然是需要的),只需提供大量的学习样本就可以自动获取更多的知识。由于通常的专家系统都具备一定的推理解释机制,因此Gallant 提出了一个简单的算法来解释连接主义专家系统所做的推理。该算法通过产生规
6、则来解释神经网络如何为某个给定案例得出结论。其基本思想就是从当前已知的信息集中选择一个能有效地产生该结论的最小信息集合,也就是说,不管其他未知输入分量的取值为多少,只要满足该最小信息集合的取值要求就可以得出结论。实际上, Gallant 的连接主义专家系统中所使用的神经网络和今天我们常用的神经网络相比是有很大区别的,甚至可以说Gallant 所使用的只是神经网络的雏形。这是因为在Gallant所用的网络中,每个结点都有确定的含义,而且结点之间的连接也是根据领域知识建立的,这与我们今天常用的相邻层间全连接、知识分布式表示的多层前馈网络截然不同。显然,从Gallant 所用的网络中抽取规则并不是很
7、困难的事情,而且其算法也难以直接用于常见的神经网络。有趣的是, 虽然 Gallant 提出的算法适用范围并不大,而且 Gallant 本人也并没有意识到这一工作的重要性,只是将其作为连接主义专家系统的一个附件,在论文中仅花了很少的篇幅进行描述,但Gallant 的这篇论文却被认为开创了神经网络规则抽取这一领域,成为该领域被引用最多的文献之一。而这篇论文的主体,即Gallant 真正想倡导的连接主义专家系统,反倒没有这么大的影响。在 Gallant 之后,陆续有一些研究者对神经网络规则抽取进行了研究SN90, Fu91, GMC92, TS92, OGM92, CS93, SD93, CS94,
8、 CT95, Thr95, SL95。1995 年,Andrews 等人 ADT95 为从神经网络抽取的规则提出了一个评价体系,并提出了规则抽取算法的分类体系。前者为不同规则抽取算法的比较提供了标准,并对新算法的设计具有指导作用,后者使得对规则抽取算法的系统化分析成为可能。这两个体系为神经网络规则抽取这一领域的进一步发展奠定了基础,因此, Andrews 等人的这篇论文 ADT95 被认为是该领域的一个里程碑。本章将分别在第 3 和第 4 节介绍 Andrews 等人提出的这两个体系。1998 年, IEEE Transaction on Neural Networks 为神经网络规则抽取出版
9、了一期专辑,Tickle2 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 19 页 - - - - - - - - - 等人 TAG98 在首篇文章中明确指出,从神经网络中抽取规则是当前神经网络研究的一个重要课题。这一专辑掀起了神经网络规则抽取研究的热潮。最近几年,大批研究者涌入该领域,新成果层出不穷 AM99, KSB99, Mai99, TG99, Set00, SL00, Tsu00, ZCC00, DAG01, SN02, CMB02 。到目前为止,神经网络规则
10、抽取技术已经被广泛地用于解决医疗诊断 Set96, HSY00 、外汇市场汇率预测 CS97 、DNA 连接键识别 Fu98 、商业机构技术调查 STY98 、信用风险评估 BSM03 等问题,这些问题的共同特点是除了要求学习系统具有高的预测精度之外,还要求具有好的可理解性。3 规则和评价3.1 规则类型由于神经网络的类型不同、规则抽取算法的工作机制不同,因此从神经网络中抽取出的规则可以有不同的形式。就目前来说,从神经网络中抽取的规则大致可以分为四种类型,即命题规则( propositional rule ) 、模糊规则( fuzzy rule ) 、回归规则(regression rule)
11、和确定型有限状态自动机(deterministic finite-state automata ,简记为 DFA ) 。最常见的是从神经网络分类器中抽取的命题规则,即用命题逻辑描述的规则。这里规则前件中是属性-值对形式的属性测试,规则后件是分类值,例如文献 DAG97 中抽取的规则,如式( 1)所示。()()33IF;IF4;ELSE.xsiris - setosaxlxliris - virginicairis - versicolor=(1) 另一种比较常见的是模糊规则。实际上,很多模糊规则也是命题规则,但其规则中使用了一些模糊算子,例如文献 BCR97 中抽取的规则,如式(2)所示。IF
12、is greater than approximately 22.916is not greater than approximately 137.500is greater than approximately 14.013is greater than approximatesepal -lengthi -orsepal - widthi -orpetal -lengthi -orpetal - widthly 17.886THEN13.92.y =(2) 从回归估计型神经网络中抽取规则要比从神经网络分类器抽取规则困难得多,这是因为前者的输出是连续值,而不再是可数的离散属性值。最近,这方面
13、的研究取得了一些突破,一些研究者 SN02, SLZ02 提出了可行的算法来抽取回归规则。回归规则与普通命题规则的不同之处在于前者包含了一些回归表达式,例如文献 SLZ02 中抽取的规则, 如式(3)所示。3 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 19 页 - - - - - - - - - 11IFRegion 1 THEN1030.51 0.95PRE 0.59JAT0.70JUT0.55HOU1.39NOW0.16SO2yYY=+-+ (3) 比较特殊的是
14、从循环神经网络(recurrent neural network )中抽取的DFA 。特定的DFA 实际上对应了特定的文法规则,DFA 中的状态对应于文法中的非终结符,而DFA 中的状态迁移则对应于文法中的产生式,例如文献 OG96 中抽取的DFA,如图 1 所示。12345678910图 1. 从循环神经网络中抽取出的DFA 3.2 评价体系1995 年,Andrews 等人 ADT95 提出了一系列指标,用于评价从神经网络中抽取出的规则。这些指标集中起来就形成了一个被称为FACC 框架( FACC framework )的规则评价体系。具体来说,FACC 框架包含了四个指标,即保真度(fi
15、delity ) 、精度( accuracy) 、一致性(consistency)和可理解性(comprehensibility ) 。FACC 就是这四个指标的首字母缩写。保真度体现了抽取出的规则“模仿”神经网络行为的能力,即这些规则是否能很好地表现神经网络的预测活动。在实际度量保真度时,通常是使用一个测试集分别对神经网络以及从神经网络中抽取出的规则进行测试,然后计算出神经网络和规则所做出的预测一致的测试例占总的测试例的百分比,并以此作为保真度的值。精度体现了抽取出的规则的泛化能力,即直接使用这些规则进行预测的效果。在实际度量精度时,通常是使用一个测试集对规则进行测试,然后计算出规则所做出的
16、预测与期望结果一致的测试例占总的测试例的百分比,并以此作为精度的值。一致性实际上体现了规则抽取算法的稳定性。绝大多数规则抽取算法在多次运行后会得到不同的规则,如果算法的稳定性比较好,则多次运行后得到的规则的差异不会太大,此时规则的一致性就比较好。遗憾的是,一致性这个指标在操作上存在一定的困难,目前还没有被广泛接受的具体度量方式。因此,在实际的规则评价和算法比较中,该指标用得很少。可理解性体现了抽取出的规则容易被用户理解的程度。由于规则抽取算法从神经网络中4 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - -
17、 - - - - 第 4 页,共 19 页 - - - - - - - - - 抽取出的都是符号规则,因此其可理解性远远强于黑箱式的神经网络。然而,不同算法抽取出的规则的可理解性还是有一定差别的。一般来说,抽取出的规则条数越少、每条规则的前件越少,则规则的可理解性越好。因此在实际度量可理解性时,通常是统计出规则的条数和平均前件数。从上述描述可以看出,保真度、精度、一致性和可理解性越好,则规则就越好,而抽取出这些规则的算法也就越好。显然, FACC 框架的提出使得对神经网络规则抽取这一领域的规则评价和算法比较成为可能。事实上, 从 Andrews 等人提出该框架开始,FACC 就成为该领域几乎所
18、有工作的基础。为了抽取出好的规则以及在与其他算法的比较中占据优势,几乎所有的算法都在致力于优化FACC 框架中的指标。 因此,FACC 框架对规则抽取算法的设计具有重要的指导作用。4 算法分类4.1 ADT 分类学随着大量神经网络规则抽取算法被陆续提出,对不同的算法进行归类就成为了一项重要任务。适当的归类不仅有助于该领域积累的知识的整理,还有助于对规则抽取算法的系统化分析以及对算法设计思想的全面剖析。1995 年, Andrews 等人 ADT95 提出了一个规则抽取算法分类体系,根据Andrews、Diederich 、 Tickle 等三位作者的姓氏首字母缩写,该体系后来被称为ADT分类学
19、( ADT taxonomy) 。ADT 分类学将神经网络规则抽取算法分为三大类,即分解型(decompositional ) 、教学型( pedagogical)和折衷型(eclectic) 。1998 年, Tickle 等人 TAG98 对该分类学进行了扩展,加入了第四个类型,即复合型(compositional ) 。本节将分别对上述四个类型的一些代表性算法进行介绍。值得注意的是,ADT分类学(包括其扩展)对规则抽取算法类型的分类粒度比较细,随着大量新算法的提出,一些算法已经不太容易被清楚地划分到上述四种类型中。因此,有的研究者建议使用分类粒度较粗的分类体系,例如仅将算法划分为结构分析
20、型和功能分析型这两种类型 ZCC00, 周陈 02a。4.2 分解型算法分解型算法将神经网络视为多个神经元的集合体,先为输入神经元之外的每个神经元抽取规则,然后将这些规则通过简单的代入等方式重写,从而最终获得反映神经网络输入和输出关系的规则。 这一类算法主要有NOFM TS92 、RX Set97 、KT Fu91 、COMBO KSB99 、NeuroLinear SL97 、RULEX AG94、RF5 SN96 、Partial-RE 和 Full-RETG99, 以及 Tresp等人提出的算法 TSP93 等。5 名师资料总结 - - -精品资料欢迎下载 - - - - - - - -
21、 - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 19 页 - - - - - - - - - 4.2.1 NOFM 算法NOFM TS92 是 Towell 和 Shavlik 为基于知识的神经网络(Knowledge Based Artificial Neural Networks ,简记为KBANN )TS94 设计的一种规则抽取算法。该算法先通过聚类将神经元的扇入连接权划分为若干个等价类,并将每个等价类的权值设为该组连接权的平均值,然后去掉那些对结果影响不大的等价类,在不调整权值的前提下对神经网络重新进行训练,最后直接根据网络结构和权值
22、抽取出形如式(4)的 m-of-n 规则。()IF of antecedents are THENmntrue(4) m-of- n 规则是由一个整数阈值m 和 n 个布尔前件构成的布尔表达式,当 n 个前件中有至少m 个满足时,该表达式即被激活。例如,m-of-n 表达式 2-of- a, ? b, c 在逻辑上等价于(a ? b) (a c) (? b c)。使用这种形式的规则不仅减少了抽取的规则数,还使得规则集比较简单易懂。NOFM 算法为神经元抽取规则的一个运行实例如图2所示。facbde0.90.92.52.52.5阈值 4.5b) 通过连接权聚类产生等价类(虚线表示 )fabcde
23、0.82.31.02.42.8阈值 4.5fbde2.52.52.5IF 2 of b, d, eTHEN f.阈值 4.5a) 神经元及其扇入连接权c) 去掉不重要的等价类d) 抽取出的规则图 2. NOFM 算法为神经元抽取规则值得注意的是,在普通的神经网络中,由于连接权大多发散地分布在权值空间中,不象在 KBANN中那样容易被聚为等价类,因此一般来说,NOFM 算法仅适用于KBANN 。1993年,Craven 和 Shavlik CS93 提出,可以先用柔性权共享 (soft weight-sharing ) 方法 NH92 训练网络,然后再用NOFM 算法抽取规则。由于柔性权共享方法
24、会促进连接权在训练中聚类,这样就使得NOFM 算法的适用范围有所扩大。但是,由于 NOFM 算法对神经网络的结构有一些很强的要求,例如要求神经元激活值为二值模式、每个神经元表示唯一的概念、网络输入6 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 19 页 - - - - - - - - - 为离散值等,这使其适用范围始终受到很大的限制。4.2.2 RX 算法RX Set97 是 Setiono 提出的一种适用于前馈网络的规则抽取算法,该算法通过修剪网络去除冗余连接,并通
25、过对隐层神经元输出值进行聚类降低组合复杂度。RX 使用了 Setiono 和Liu SL95 设计的激活值离散化技术以及一种独特的隐层神经元分裂技术,当某个隐层神经元的输入连接权较多时,将其分裂为若干个输出神经元,并通过引入新的隐层神经元来构建子网络,从而递归地进行规则抽取处理。Setiono 对 RX 算法的具体描述如表1 所示。表 1. RX 算法1. Train and prune the neural network. 2. Discretize the activation values of the hidden units by clustering. 3. Using the
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年神经网络规则的抽取 2022 神经网络 规则 抽取
限制150内