书签分享收藏举报版权申诉 / 19

立即下载

当前位置：首页 > 技术资料 > 技术总结 > 2022年神经网络规则的抽取 .pdf

2022年神经网络规则的抽取 .pdf

上传人：H****o

文档编号：32525889

上传时间：2022-08-09

格式：PDF

页数：19

大小：307.41KB

( 4.5 )

《2022年神经网络规则的抽取 .pdf》由会员分享，可在线阅读，更多相关《2022年神经网络规则的抽取 .pdf（19页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、神经网络规则抽取*周志华南京大学软件新技术国家重点实验室，南京210093 1 引言神经网络的发展受到了一个固有缺陷的限制，即神经网络学到的知识蕴涵在大量的连接权中，用户无法了解网络到底学到了什么、能处理什么样的任务，也无从知道网络如何进行预测、为什么得出这样或那样的推理结论。这就是通常所说的神经网络的“黑箱性”。一般来说，“可解释性”是可靠系统的必备特性，由于通常的神经网络模型都是“不可解释”的，这在一定程度上影响了用户对利用神经网络技术构建智能系统的信心。虽然 Baum 和Haussler BH89 曾经指出，“如果一个神经网络可以为大量训练例产生正确的结果，那么可以相信它也能为类似于训练

2、例的未知示例产生正确结果”，但这并没有消除用户对可理解性的偏好。随着数据挖掘在20 世纪 90 年代的兴起，学习系统的可理解性更加受到重视，因为在数据挖掘的经典定义“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”FPS96中，模式的可理解性被显式地放到了一个突出的位置上（注：Fayyad 等人原来的定义对象是KDD ，但随着该领域研究的发展，大多数研究者目前趋向于认为KDD和数据挖掘具有相同的含义，另外，原定义中“数据库”被现在的“巨量数据”所取代）。由于神经网络学习到的知识不能以容易理解的形式提交给决策者，其应用受到了很大的限制。改善神经网络可理解性的一个有效途径

3、就是从神经网络中抽取出易于理解的符号规则。这方面的研究工作最早开始于20 世纪 80 年代末，在过去十年中逐渐成为一个颇受关注的研究领域，即神经网络规则抽取（rule extraction from neural networks ）。 1998 年，IEEE Transaction on Neural Networks专门为神经网络规则抽取出版了一期专辑，此后的众多神经网络专业会议都出现了规则抽取专题，这意味着该领域已成为一个研究热点。本章综述了神经网络规则抽取这一领域的研究情况。第2 节简要介绍该领域的起源和发展过程，第3 节介绍抽取出的规则类型以及对规则的评价体系，第4 节介绍规则抽

4、取算法的分类和一些代表性算法，第5 节介绍研究者们对该领域一些问题的讨论，最后在第6 节提出该领域今后的一些重要研究内容。* 本文得到国家自然杰出青年科学基金(60325207)资助名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共 19 页 - - - - - - - - - 2 起源和发展1988 年，Gallant Gal88 设计了一个连接主义专家系统（connectionist expert system），该系统与当时所流行的专家系统唯一的区别就是其知识库是由一

5、个神经网络实现的。连接主义专家系统思想的产生并不是偶然的。事实上，当时的很多研究者已经认识到，传统知识工程中的知识获取手段，即依靠知识工程师与领域专家进行交互来获取知识，已经成为专家系统开发的一个瓶颈，而利用机器学习技术让系统自动地获取知识，可能是一种更有希望的途径。由于神经网络具有很强的学习能力，因此Gallant 期望由它实现的知识库可以不再需要知识工程师与用户进行大量烦琐的交互（注：少量的交互仍然是需要的），只需提供大量的学习样本就可以自动获取更多的知识。由于通常的专家系统都具备一定的推理解释机制，因此Gallant 提出了一个简单的算法来解释连接主义专家系统所做的推理。该算法通过产生规

6、则来解释神经网络如何为某个给定案例得出结论。其基本思想就是从当前已知的信息集中选择一个能有效地产生该结论的最小信息集合，也就是说，不管其他未知输入分量的取值为多少，只要满足该最小信息集合的取值要求就可以得出结论。实际上， Gallant 的连接主义专家系统中所使用的神经网络和今天我们常用的神经网络相比是有很大区别的，甚至可以说Gallant 所使用的只是神经网络的雏形。这是因为在Gallant所用的网络中，每个结点都有确定的含义，而且结点之间的连接也是根据领域知识建立的，这与我们今天常用的相邻层间全连接、知识分布式表示的多层前馈网络截然不同。显然，从Gallant 所用的网络中抽取规则并不是很

7、困难的事情，而且其算法也难以直接用于常见的神经网络。有趣的是，虽然 Gallant 提出的算法适用范围并不大，而且 Gallant 本人也并没有意识到这一工作的重要性，只是将其作为连接主义专家系统的一个附件，在论文中仅花了很少的篇幅进行描述，但Gallant 的这篇论文却被认为开创了神经网络规则抽取这一领域，成为该领域被引用最多的文献之一。而这篇论文的主体，即Gallant 真正想倡导的连接主义专家系统，反倒没有这么大的影响。在 Gallant 之后，陆续有一些研究者对神经网络规则抽取进行了研究SN90, Fu91, GMC92, TS92, OGM92, CS93, SD93, CS94,

8、 CT95, Thr95, SL95。1995 年，Andrews 等人 ADT95 为从神经网络抽取的规则提出了一个评价体系，并提出了规则抽取算法的分类体系。前者为不同规则抽取算法的比较提供了标准，并对新算法的设计具有指导作用，后者使得对规则抽取算法的系统化分析成为可能。这两个体系为神经网络规则抽取这一领域的进一步发展奠定了基础，因此， Andrews 等人的这篇论文 ADT95 被认为是该领域的一个里程碑。本章将分别在第 3 和第 4 节介绍 Andrews 等人提出的这两个体系。1998 年， IEEE Transaction on Neural Networks 为神经网络规则抽取出版

9、了一期专辑，Tickle2 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 19 页 - - - - - - - - - 等人 TAG98 在首篇文章中明确指出，从神经网络中抽取规则是当前神经网络研究的一个重要课题。这一专辑掀起了神经网络规则抽取研究的热潮。最近几年，大批研究者涌入该领域，新成果层出不穷 AM99, KSB99, Mai99, TG99, Set00, SL00, Tsu00, ZCC00, DAG01, SN02, CMB02 。到目前为止，神经网络规则

10、抽取技术已经被广泛地用于解决医疗诊断 Set96, HSY00 、外汇市场汇率预测 CS97 、DNA 连接键识别 Fu98 、商业机构技术调查 STY98 、信用风险评估 BSM03 等问题，这些问题的共同特点是除了要求学习系统具有高的预测精度之外，还要求具有好的可理解性。3 规则和评价3.1 规则类型由于神经网络的类型不同、规则抽取算法的工作机制不同，因此从神经网络中抽取出的规则可以有不同的形式。就目前来说，从神经网络中抽取的规则大致可以分为四种类型，即命题规则（ propositional rule ）、模糊规则（ fuzzy rule ）、回归规则（regression rule）

11、和确定型有限状态自动机（deterministic finite-state automata ，简记为 DFA ）。最常见的是从神经网络分类器中抽取的命题规则，即用命题逻辑描述的规则。这里规则前件中是属性-值对形式的属性测试，规则后件是分类值，例如文献 DAG97 中抽取的规则，如式（ 1）所示。()()33IF;IF4;ELSE.xsiris - setosaxlxliris - virginicairis - versicolor=(1) 另一种比较常见的是模糊规则。实际上，很多模糊规则也是命题规则，但其规则中使用了一些模糊算子，例如文献 BCR97 中抽取的规则，如式（2）所示。IF

12、is greater than approximately 22.916is not greater than approximately 137.500is greater than approximately 14.013is greater than approximatesepal -lengthi -orsepal - widthi -orpetal -lengthi -orpetal - widthly 17.886THEN13.92.y =(2) 从回归估计型神经网络中抽取规则要比从神经网络分类器抽取规则困难得多，这是因为前者的输出是连续值，而不再是可数的离散属性值。最近，这方面

13、的研究取得了一些突破，一些研究者 SN02, SLZ02 提出了可行的算法来抽取回归规则。回归规则与普通命题规则的不同之处在于前者包含了一些回归表达式，例如文献 SLZ02 中抽取的规则，如式（3）所示。3 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 19 页 - - - - - - - - - 11IFRegion 1 THEN1030.51 0.95PRE 0.59JAT0.70JUT0.55HOU1.39NOW0.16SO2yYY=+-+ (3) 比较特殊的是

14、从循环神经网络（recurrent neural network ）中抽取的DFA 。特定的DFA 实际上对应了特定的文法规则，DFA 中的状态对应于文法中的非终结符，而DFA 中的状态迁移则对应于文法中的产生式，例如文献 OG96 中抽取的DFA，如图 1 所示。12345678910图 1. 从循环神经网络中抽取出的DFA 3.2 评价体系1995 年，Andrews 等人 ADT95 提出了一系列指标，用于评价从神经网络中抽取出的规则。这些指标集中起来就形成了一个被称为FACC 框架（ FACC framework ）的规则评价体系。具体来说，FACC 框架包含了四个指标，即保真度（fi

15、delity ）、精度（ accuracy）、一致性（consistency）和可理解性（comprehensibility ）。FACC 就是这四个指标的首字母缩写。保真度体现了抽取出的规则“模仿”神经网络行为的能力，即这些规则是否能很好地表现神经网络的预测活动。在实际度量保真度时，通常是使用一个测试集分别对神经网络以及从神经网络中抽取出的规则进行测试，然后计算出神经网络和规则所做出的预测一致的测试例占总的测试例的百分比，并以此作为保真度的值。精度体现了抽取出的规则的泛化能力，即直接使用这些规则进行预测的效果。在实际度量精度时，通常是使用一个测试集对规则进行测试，然后计算出规则所做出的

16、预测与期望结果一致的测试例占总的测试例的百分比，并以此作为精度的值。一致性实际上体现了规则抽取算法的稳定性。绝大多数规则抽取算法在多次运行后会得到不同的规则，如果算法的稳定性比较好，则多次运行后得到的规则的差异不会太大，此时规则的一致性就比较好。遗憾的是，一致性这个指标在操作上存在一定的困难，目前还没有被广泛接受的具体度量方式。因此，在实际的规则评价和算法比较中，该指标用得很少。可理解性体现了抽取出的规则容易被用户理解的程度。由于规则抽取算法从神经网络中4 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - -

17、 - - - - 第 4 页，共 19 页 - - - - - - - - - 抽取出的都是符号规则，因此其可理解性远远强于黑箱式的神经网络。然而，不同算法抽取出的规则的可理解性还是有一定差别的。一般来说，抽取出的规则条数越少、每条规则的前件越少，则规则的可理解性越好。因此在实际度量可理解性时，通常是统计出规则的条数和平均前件数。从上述描述可以看出，保真度、精度、一致性和可理解性越好，则规则就越好，而抽取出这些规则的算法也就越好。显然， FACC 框架的提出使得对神经网络规则抽取这一领域的规则评价和算法比较成为可能。事实上，从 Andrews 等人提出该框架开始，FACC 就成为该领域几乎所

18、有工作的基础。为了抽取出好的规则以及在与其他算法的比较中占据优势，几乎所有的算法都在致力于优化FACC 框架中的指标。因此，FACC 框架对规则抽取算法的设计具有重要的指导作用。4 算法分类4.1 ADT 分类学随着大量神经网络规则抽取算法被陆续提出，对不同的算法进行归类就成为了一项重要任务。适当的归类不仅有助于该领域积累的知识的整理，还有助于对规则抽取算法的系统化分析以及对算法设计思想的全面剖析。1995 年， Andrews 等人 ADT95 提出了一个规则抽取算法分类体系，根据Andrews、Diederich 、 Tickle 等三位作者的姓氏首字母缩写，该体系后来被称为ADT分类学

19、（ ADT taxonomy）。ADT 分类学将神经网络规则抽取算法分为三大类，即分解型（decompositional ）、教学型（ pedagogical）和折衷型（eclectic）。1998 年， Tickle 等人 TAG98 对该分类学进行了扩展，加入了第四个类型，即复合型（compositional ）。本节将分别对上述四个类型的一些代表性算法进行介绍。值得注意的是，ADT分类学（包括其扩展）对规则抽取算法类型的分类粒度比较细，随着大量新算法的提出，一些算法已经不太容易被清楚地划分到上述四种类型中。因此，有的研究者建议使用分类粒度较粗的分类体系，例如仅将算法划分为结构分析

20、型和功能分析型这两种类型 ZCC00, 周陈 02a。4.2 分解型算法分解型算法将神经网络视为多个神经元的集合体，先为输入神经元之外的每个神经元抽取规则，然后将这些规则通过简单的代入等方式重写，从而最终获得反映神经网络输入和输出关系的规则。这一类算法主要有NOFM TS92 、RX Set97 、KT Fu91 、COMBO KSB99 、NeuroLinear SL97 、RULEX AG94、RF5 SN96 、Partial-RE 和 Full-RETG99, 以及 Tresp等人提出的算法 TSP93 等。5 名师资料总结 - - -精品资料欢迎下载 - - - - - - - -

21、 - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页，共 19 页 - - - - - - - - - 4.2.1 NOFM 算法NOFM TS92 是 Towell 和 Shavlik 为基于知识的神经网络（Knowledge Based Artificial Neural Networks ，简记为KBANN ）TS94 设计的一种规则抽取算法。该算法先通过聚类将神经元的扇入连接权划分为若干个等价类，并将每个等价类的权值设为该组连接权的平均值，然后去掉那些对结果影响不大的等价类，在不调整权值的前提下对神经网络重新进行训练，最后直接根据网络结构和权值

22、抽取出形如式（4）的 m-of-n 规则。()IF of antecedents are THENmntrue(4) m-of- n 规则是由一个整数阈值m 和 n 个布尔前件构成的布尔表达式，当 n 个前件中有至少m 个满足时，该表达式即被激活。例如，m-of-n 表达式 2-of- a, ? b, c 在逻辑上等价于(a ? b) (a c) (? b c)。使用这种形式的规则不仅减少了抽取的规则数，还使得规则集比较简单易懂。NOFM 算法为神经元抽取规则的一个运行实例如图2所示。facbde0.90.92.52.52.5阈值 4.5b) 通过连接权聚类产生等价类(虚线表示 )fabcde

23、0.82.31.02.42.8阈值 4.5fbde2.52.52.5IF 2 of b, d, eTHEN f.阈值 4.5a) 神经元及其扇入连接权c) 去掉不重要的等价类d) 抽取出的规则图 2. NOFM 算法为神经元抽取规则值得注意的是，在普通的神经网络中，由于连接权大多发散地分布在权值空间中，不象在 KBANN中那样容易被聚为等价类，因此一般来说，NOFM 算法仅适用于KBANN 。1993年，Craven 和 Shavlik CS93 提出，可以先用柔性权共享（soft weight-sharing ）方法 NH92 训练网络，然后再用NOFM 算法抽取规则。由于柔性权共享方法

24、会促进连接权在训练中聚类，这样就使得NOFM 算法的适用范围有所扩大。但是，由于 NOFM 算法对神经网络的结构有一些很强的要求，例如要求神经元激活值为二值模式、每个神经元表示唯一的概念、网络输入6 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页，共 19 页 - - - - - - - - - 为离散值等，这使其适用范围始终受到很大的限制。4.2.2 RX 算法RX Set97 是 Setiono 提出的一种适用于前馈网络的规则抽取算法，该算法通过修剪网络去除冗余连接，并通

25、过对隐层神经元输出值进行聚类降低组合复杂度。RX 使用了 Setiono 和Liu SL95 设计的激活值离散化技术以及一种独特的隐层神经元分裂技术，当某个隐层神经元的输入连接权较多时，将其分裂为若干个输出神经元，并通过引入新的隐层神经元来构建子网络，从而递归地进行规则抽取处理。Setiono 对 RX 算法的具体描述如表1 所示。表 1. RX 算法1. Train and prune the neural network. 2. Discretize the activation values of the hidden units by clustering. 3. Using the

26、discretized activation values, generate rules that describe the network outputs. 4. For each hidden unit: 1) If the number of input connections is less than an upper bound, then extract rules to describe the activation values in terms of the inputs. 2) Else form a subnetwork: (a) Set the number of o

27、utput units equal to the number of discrete activation values. Treat each discrete activation value as a target output. (b) Set the number of input units equal to the number of inputs connected to the hidden unit. (c)Introduce a new hidden layer. (d) Apply RX to this subnetwork. 5. Generate rules th

28、at relate the inputs and the outputs by merging rules generated in Steps 3 and 4. RX 算法的第 2步，即通过聚类对隐层神经元激活值进行离散化的算法描述见表2。表 2. 通过聚类对隐层神经元激活值进行离散化的算法1. Let (0,1). Let D be the number of discrete activation values in the hidden unit. Let 1 be the activation value in the hidden unit for the first patter

29、n in the training set. Let H (1) = 1, count(1) = 1, and sum (1) = 1; set D = 1. 2. For each pattern pi, i = 2, 3, , k in the training set: 1) Let be its activation value. 2) If there exists an index J such that ( )( )jHJHDj-=-,.,2,1min and ( )-JHthen set count (J) := count (J) +1, sum (J) := sum (J)

30、 + else D = D +1, H (D) = , count (D) = 1, sum (D) = . 3. Replace H by the average of all activation values that have been clustered into this cluster: H (j) := sum (j) / count (j) , j = 1, 2, , D. 7 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页，共 19 页 - - - - -

31、 - - - - RX 算法可以产生相当精确的规则，但由于要训练多个子网络，其时间开销相当大。另一方面，该算法只适用于规模较小的网络，这是因为在输入神经元较多时，待分裂的隐层神经元数以及递归分裂的次数非常大。4.3 教学型算法教学型算法将神经网络视为一个整体，并力图直接建立反映神经网络输入和输出关系的规则。这一类算法主要有Sestito 和 Dillon 提出的算法 SD93 、 TREPAN CS96 、VIA Thr95 、IA FSA96 、RF 和 RN SN90 、BIO-RE TG99 、以及 STARE ZCC00 等。4.3.1 SD 算法这里我们将 Sestito和Dillo

32、n 提出的算法称为SD算法 SD93 ，该算法为神经网络中每个输出神经元抽取相应的规则。SD算法首先将原神经网络的输出神经元作为附加输入神经元，然后利用扩展后的输入神经元和原输出神经元建立一个新的单隐层网络，并用BP算法 RHW86 对其进行训练。训练完成之后，对所有输入和附加输入神经元，根据式（5）计算出它们之间的误差平方和SSE ，其中 a为输入神经元， b为附加输入神经元，waj和wbj分别为神经元a和b与隐层神经元 j之间的连接权。 SSEab度量了输入神经元a和输出神经元 b之间的接近程度，SSEab越小则说明输入 a对输出 b的作用越大。()2no. of hidden units

33、0abbjajjSSEww=-(5) 然后， SD算法利用扩展后的输入神经元以及原输出神经元建立一个单层抑制性网络，并利用 Hebb学习规则确定神经元间的抑制性连接权weightab，该权值度量了输入神经元与输出神经元之间的相关度，值越小则说明某输入与某输出的关系越密切。在此基础上，对每一个输入神经元a和输出神经元 b，SD算法根据式（ 6）计算其误差平方和SSEab与抑制性连接权weightab的积 Productab，并将 Productab从大到小排序。对某个特定的输出，找出乘积表中的截断点，即乘积表中的某一个位置，从该处断开的两个乘积在数值上至少相差两到三倍。最后以截断点以下的所有输入

34、属性为规则前件，以输出为规则后件构造出规则。abababProductSSEweight=(6) SD 算法对前馈网络相当有效，可以抽取出很好的规则，但由于在规则抽取过程中需要额外地构造并训练两个神经网络，其时间开销相当大。4.3.2 TREPAN 算法Craven和 Shavlik 提出的 TREPAN 算法 CS96 将神经网络规则抽取过程视为一个学习问8 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页，共 19 页 - - - - - - - - - 题，可以抽取出与神

35、经网络功能接近、使用m-of-n 表达式作为内部划分的决策树。TREPAN 算法使用了一个外部调用oracle。 oracle有三个不同的用途，即确定决策树训练例的类别标记、为决策树中的内部结点选择划分、以及确定树中某一结点是否只包含同一类别的训练例。在确定决策树训练例类别标记时，oracle 要接收一个查询，该查询可以是完整的输入模式，此时oracle 就利用神经网络来产生相应的输出；该查询也可以是对属性取值的一些约束条件，此时oracle 就在约束下随机地产生一些属性值，并利用神经网络产生相应的输出。在生成决策树时，TREPAN 使用了最好优先策略，即优先扩展最有希望提高树的保真度的结点。

36、在构造树中的m-of- n 划分时，TREPAN使用了 C4.5决策树中的增益率（gain ratio） Qua93 来进行划分评估，并使用了类似于 ID2-of-3 决策树 MP91 中的方式对划分进行扩展。Craven和Shavlik 对TREPAN 算法的具体描述如表3所示。表 3. TREPAN 算法TREPAN( training_examples , features) Queue := ? /* sorted queue of nodes to expand */ for each example Etraining_examples/* use net to label ex

37、amples */ class label for E := ORACLE( E) initialize the root of the tree, T, as a leaf node put into Queuewhile Queue is not empty and size(T) tree_size_limit/* expand a node */ remove node N from head of Queue examplesN := example set stored with NconstraintsN := constraint set stored with Nuse fe

38、atures to build set of candidate splits use examplesN and calls to ORACLE( constraintsN) to evaluate splits S := best binary split search for best m-of-n splits, S , using S as a seed make N an internal node with split Sfor each outcome, s, of S /* make children nodes */ make C, a new child node of

39、NconstraintsC := constraintsN S = s use calls to ORACLE( constraintsC) to determine if C should remain a leaf otherwise examplesC := members of examplesN with outcome s on split Sput into Queuereturn TTREPAN 算法对神经网络的训练算法没有特殊的要求，而且其抽取出的规则的保真度也相当好。但由于决策树的可理解性不如命题逻辑表达式 Wu95 ，因此如果要进一步增强可理解9 名师资料总结 - - -

40、精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页，共 19 页 - - - - - - - - - 性，还需再将决策树映射为命题规则。另外，由于TREPAN 算法中对oracle 使用了一些随机查询，其一致性相对较差。4.4 折衷型算法折衷型算法是分解型算法和教学型算法之间的过渡类型。这一类算法与分解型算法的不同之处在于它们是直接建立反映神经网络输入和输出关系的规则，不象分解型算法那样为每个隐层和输出层神经元抽取规则；而它们与教学型算法的不同之处在于需要考察神经网络的结构，不象教学型算法那样与网络结构

41、彻底无关。目前明确属于该类的算法比较少，主要代表是 DEDEC 算法 TOD96 以及 Craven 和 Shavlik 在 1994 年提出的算法 CS94 。4.4.1 DEDEC 算法Tickle 等人提出的DEDEC 算法 TOD96 通过分析神经网络的输入和输出之间的函数依赖关系来进行规则抽取。该算法先考察输入神经元的扇出连接权，将网络的输入按其对输出的重要性（贡献）进行排序，然后对排好序的输入进行聚类，再为每个类产生一个最优二值规则集，此规则集就描述了该类中的属性与输出之间的函数依赖关系。DEDEC 算法工作流程的一个简单示意图如图3所示。对权进行分析从而对输入排序，这个序反映出各

42、输入在对输出进行预测时的相对重要性神经网络训练权向量分析迭代进行函数依赖分析/规则抽取搜索重要输入与输出之间的函数依赖关系，然后抽取出对应的规则图 3. DEDEC 算法的工作流程DEDEC 算法对神经网络的训练算法没有特别的要求，但由于要考察输入神经元的连接权向量，当网络的输入较多时，该算法效率会比较差。4.4.2 CS94 算法1994年， Craven和Shavlik CS94 将神经网络规则抽取任务定义为“给定一个训练好的神经网络以及用于其训练的训练集，为网络产生一个简洁而精确的符号描述”。在这个定义的基础上，他们提出了一个基于学习的规则抽取算法 CS94 ，可以为每个输出分类分别产

43、生其DNF规则，这里我们称该算法为CS94算法。CS94算法使用了两个外部调用oracle，即 EXAMPLES 和 SUBSET 。EXAMPLES 的作用是为规则学习算法产生训练例，SUBSET的作用则是判断被某个规则覆盖的训练例是否属于某个特定的分类。CS94算法反复地调用 EXAMPLES 产生训练例，如果某训练例没有被当前10 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页，共 19 页 - - - - - - - - - 考察的分类的DNF规则所覆盖，则新规则被

44、初始化为该训练例所有属性值的合取，然后反复尝试去掉该规则的一些前件，并且调用 SUBSET 来判断该规则是否与网络保持一致，从而使规则得以一般化。Craven和Shavlik 对 CS94算法的具体描述如表4所示。表 4. CS94算法/* initialize rules for each class */ for each class c Rc := ? repeat e := EXAMPLES( ) c := classify(e) if e not covered by Rc then /* learn a new rule */ r := conjunctive rule forme

45、d from e for each antecedent ri of rr := r but with ri dropped if SUBSET( c, r ) = true then r := r Rc := Rcruntil stopping criterion metCS94算法对神经网络的训练算法没有特殊的要求，而且其抽取出的规则的保真度也相当好。但由于算法中对 EXAMPLES的调用有一定随机性，其一致性相对较差。4.5 复合型算法复合型算法与前面的分解型、教学型、折衷型算法都不同。一方面，此类算法并不是把整个神经网络作为一个整体来建立反映输入和输出关系的规则，因此它们与教学型和折衷

46、型算法完全不同；另一方面，此类算法虽然需要对神经网络的结构进行剖析，但它们并不为个别的神经元抽取规则，因此与分解型算法也不同。事实上，迄今为止的复合型算法几乎都是从循环神经网络中抽取DFA 的算法，主要有Giles 和 Omlin 等人提出的一系列算法 GMC92, OGM92, GO93, OG96 以及 Schelhammer 等人提出的算法 SDT97 。4.5.1 OG96 算法循环神经网络可以对“10010” 、 “101010”这样的正则表达式进行学习，而从训练好的网络中抽取出DFA 之后，就能得到相应的正则文法。1996 年， Omlin 和 Giles 提出了一个算法OM96

47、来做这样的工作，这里我们将其称为OM96 算法。Omlin 和 Giles 发现，在训练好的循环神经网络中，循环状态神经元的输出倾向于聚为不同的类别 OG96 。如果假设这些不同的类分别对应DFA 中不同的状态，并认为当输出神经元激活时，当前的循环状态神经元输出状态所对应的DFA 状态被接受，则从网络中抽取DFA11 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页，共 19 页 - - - - - - - - - 的任务就转变为确定循环状态神经元聚类后的输出状态，并在这些状

48、态之间建立适当的连接。这就是 OG96 算法的基本思想。例如，对具有两个循环状态神经元（s0和s1）的网络，假定其循环状态神经元的输出状态被聚为 9 个类，则 OG96 算法的一个工作过程如图4 所示（注：图4 只显示出规则抽取过程的开始阶段，只有当所有可能的状态迁移都被考察过之后，OG96 算法才得到一个完整的DFA）。图 4 上半部分显示循环状态神经元输出状态之间的联系，下半部分显示抽取出的部分DFA ，其中实线表示网络接收到输入“0” ，虚线表示网络接收到输入“1” 。a) 从初始状态 1 开始的所有可能的状态迁移12s0s112010.5010.5s0s112010.50143243

49、1b) 从状态 2 开始的所有可能的状态迁移c) 从状态 3 和状态 4 开始的所有可能的状态迁移s0s112010.50143243155图 4. OG96 算法抽取DFA（部分）OG96 算法适用于多种类型的循环神经网络，但该算法的计算开销比较大，而且只能处理布尔型输入。另外，由于算法可能对同一个网络抽取出不同的DFA ，因此需要有一个模型选择过程来确定最终的结果。4.5.2 SDTB 算法1997 年，Schellhammer 等人提出了一个从Elman 循环神经网络 Elm90 中抽取规则的算法 SDT97 ，这里我们将其称为SDTB 算法。在 Schellhammer 等人的论文中，

50、SDTB 算法的工作对象是一个有9 个隐层神经元、为处理自然语言处理任务而训练的Elman 网络。该算法先利用k 均值算法 Mac67 对隐层神经元激活值进行聚类，然后构造出一个DFA状态迁移表，最后在此基础上获取文法规则。Schellhammer 等人对 SDTB 算法的具体描述如表6 所示。12 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页，共 19 页 - - - - - - - - - 表 6. SDTB 算法1. k-means cluster analysis

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4.3 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2022年神经网络规则的抽取 2022 神经网络规则抽取

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2022年神经网络规则的抽取 .pdf
链接地址：https://www.deliwenku.com/p-32525889.html