决策树在计算机等级考试中的应用-丁勇.pdf

上传人：不***

文档编号：201170

上传时间：2018-06-06

格式：PDF

页数：5

大小：378.86KB

( 4.5 )

《决策树在计算机等级考试中的应用-丁勇.pdf》由会员分享，可在线阅读，更多相关《决策树在计算机等级考试中的应用-丁勇.pdf（5页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、计算机系统应用 http:/www.c-s- 2014 年第 23 卷第 6 期 236 研究开发 Research and Development 决策树在计算机等级考试中的应用丁勇, 武玉艳 (南京理工大学泰州科技学院计算机科学与技术系, 泰州 225300) 摘要: 江苏省计算机等级考试是由江苏省教育厅推行的一项考试制度, 该考试越来越受到高校和学生们的重视. 首先基于历届学生的考试真实数据, 应用信息熵和 ID3 算法构造决策树. 然后, 提取分类规则, 并通过计算规则的准确率与覆盖率对规则进行约简, 从而挖掘出有价值的规则。最后利用该分类规则, 预测学生能否通

2、过等级考试。通过对历史数据进行仿真实验, 表明决策树预测准确率高, 能挖掘出影响学生通过等级考试的关键因素, 对计算机等级考试课程教学有一定的指导作用. 关键词: 计算机等级考试; 决策树; 信息增益; ID3 算法 Application of the Decision Tree in the Computer Rank Examination DING Yong, WU Yu-Yan (Department of Computer Science and Technology, Nanjing University of Science and Technology, Taizhou

3、225300, China) Abstract: Jiangsu Computer Rank Examination is a examination mechanism formed by Education Department, which gains the attention of universities and students. First, based on data collected from previous students exeamination, this paper uses Information Gain and ID3 algorithm to cons

4、truct a decision tree. Then, this paper extracts the classification rules from the decision tree, and discovers these rules of the accuracy and coverage. Finally, this paper predicts the ability of students to pass the exam by these rules. Experiments indicate that the decision tree has accurate pre

5、diction, which can dig out the key factors affecting students to pass the grade examination and plays a crucial role in the course teaching. Key words: computer rank examination; decision tree; information gain; ID3 Algorithm 江苏省计算机等级考试是由江苏省教育厅推行的一项考试制度. 该考试的目的是加强普通高校非计算机专业的学生对计算机基础知识的理解和掌握, 考试设立

6、多个语种和等级，考生通过相应等级的考试可获得证书. 这项考试制度实施至今，得到了全省普通高校和用人单位的广泛认可，因此也受到高校和学生们的高度重视. 但由于试题知识点多、难度大等因素，通过率普遍较低. 为了更好地指导学生顺利考过考试，挖掘考试隐含的相关信息，并进行有针对性的指导，是十分有必要的. 决策树方法产生于 20 世纪 70 年代后期，它是一种典型的分类方法，用于发现数据中蕴涵的分类规则. 该方法首先基于一组训练样本数据，通过相应的算法构造决策树，并从树中获得分类规则，然后对分类规则进行约简，利用规则对未来数据进行预测 1 . 决策树方法分类精确，预测准确率高，可应

7、用于挖掘计算机等级考试中的隐含信息. 1 决策树算法常见的决策树算法有 ID3 算法、 C4.5 算法 2,3 . ID3 算法使用信息增益(Gain)作为属性选择的度量，C4.5 算法使用信息增益率(Gain Ratio)将信息增益规范化. 1.1 ID3 算法 ID3 算法是由 J.R.Quinlan 提出的归纳分类算法，收稿时间:2013-10-26;收到修改稿时间:2013-11-18 2014 年第 23 卷第 6 期 http:/www.c-s- 计算机系统应用 Research and Development 研究开发 237 算法的基本思想是找出具有最大信

8、息增益(Gain)的字段作为决策树的一个节点，再根据该字段的不同属性值建立树的分支，对每个分支重复建立树的下层节点和分支，直到分支的属性值属于同一类. 算法描述如下. 算法: Generate_Decision_Tree 输入: 训练样本 DataSets(D) 候选属性集 Attributes，包含分类属性输出: 决策树方法: (1) 创建一个节点 N; (2) If D 中的元组属于同一类 C then (3) 返回 N 作为叶节点，以类 C 为标记; (4) If attributes 为空then (5) 返回 N 作为叶节点，标记为普通类; (6) 选择 attribut

9、es 中具有最高信息增益(Gain) 的属性作为分裂属性 (split_attribute) ; (7) 使用 split_attribute 标记节点 N; (8) For split_attribute 的每个属性值 Vi (9) 由节点 N 生长出一个条件为 split_attribute=Vi 的分枝; (10) 设 Di是 D中满足 split_attribute=Vi的数据集合; (11) IF Di为空then (12) 加一个叶节点 N，标记为普通类; (13) Else (14) 加一个由 Generate_Decision_Tree (Di， attributes-spli

10、t_attribute)返回的节点; (15) End for 1.2 信息增益计算 ID3 算法最关键的是对训练样本中属性的信息增益(Gain)的计算. 对 D 中元组按类标号 C 进行分类所需的期望信息由公式 1 表示: (1) = = m i pi i P 1 2 log Info(D)其中， i P 是 D 中任意元组属于类 i C 的概率，因为采用二进制编码，因此采用以 2 为底的对数函数. Info(D)又称为 D 的熵. 假设按 A属性划分 D 中的元组，属性 A有 v个不同值a1,a2,a3.av，用属性 A 将 D 划分为 v 个子集 D1,D2,.Dv，其中 D

11、j 中的样本在属性 A上具有相同的值 aj(j=1,2,.v). 设 Dij 是子集 Dj 中类 Ci 的样本数，由 A 划分成子集所需的期望信息由公式 2 表示: (2) ) ( | | | | ) ( 1 Dj Info D Dj D Info v j A = =其中， ) (Dj Info 是属性 A 划分子集 Dj 所需的期望信息. 信息增益为基于类标号划分 D 的期望信息与基于 A属性划分 D 的期望信息之间的差，由公式 3 表示: ) ( ) ( ) ( D Info D Info A Gain A =(3) C4.5 算法在 ID3 算法的基础上进行了改进，克服了信

12、息分布可能存在的“偏倚”现象. 基于 A 属性划分 D 的期望信息增益率，由公式 4 表示: ) ( ) ( ) ( A Info A Gain A GainRatio =(4) 1.3 提取规则规则用于表示数据集中属性之间的关系，可以用 IF-THEN 的形式来表示. IF 部分称作规则的前件，Then 部分称作规则的后件. 基于决策树提取规则的方法是沿着树中由根节点到每个树叶节点的路径，每个叶子节点都创建一条规则，每个分割都成为规则中的一个条件，叶子节点中的类别就是 Then的内容，算法如下. 算法: Generate_Rules(Node) 输入: 决策树(Decision_Tr

13、ee) 输出: 规则(Rules) 方法: (1)Node=Root /根节点 (2)If Node不为空 then (3) for all Child in Node /每个子节点 (4) if Child=叶子节点 then (5) Ruls.left=Child.Name; (6) Rules.right=Child.Type; (7) Genarate(Child) /递归调用 (8) Else (9) Return /返回上一层节点 (10) End for (11)End If (12)Return Rules /返回规则 2 计算机等级考试成绩预测 2.1 数据预处理计算机

14、系统应用 http:/www.c-s- 2014 年第 23 卷第 6 期 238 研究开发 Research and Development 学生信息包括学号、姓名、年龄、性别、年级、学院、专业、班级、所选课程、平时成绩、理论成绩、上机成绩等，选择具有代表性的特征信息，如语言基础、是否按时完成作业、理论成绩、上机成绩、是否通过等级考试等. 对学生成绩进行离散化处理，将理论成绩、上机成绩的数值泛化为离散的区间，成绩在 80-100 之间为 High(H)，60-79 之间为 Middle(M),yes、 machine-no,叶子节点分别生成“正例”规则 R1 和“反例

15、”规则 R4. 在表 1 中，满足规则 R1 的记录占样本数的比例为 1/15(6.67%)，满足规则 R4 的记录占样本数的比例为 7/15(46.67%). 子节点 exercise 递归调用 Generate_Rules算法，为叶子节点 exercies-yes和 2014 年第 23 卷第 6 期 http:/www.c-s- 计算机系统应用 Research and Development 研究开发 239 machine yes exercises no theory yes yes no no =L =M =L =H =M =H =yes =no 图 1 决策

16、树 exerices-no 分别生成规则 R3、R5. 同理，子节点 theory生成规则 R5、R6. R1:IF 上机成绩=H THEN 通过=yes R2:IF 上机成绩=M AND 按时完成作业=yes THEN 通过=yes R3:IF 上机成绩=M AND 按时完成作业=no AND 理论成绩=H THEN 通过=yes R4:IF 上机成绩=L THEN 通过=no R5:IF 上机成绩=M AND 按时完成作业=no AND 理论成绩=M THEN 通过=no R6:IF 上机成绩=M AND 按时完成作业=no AND 理论成绩=L THEN 通过=no 如果上机成绩高，则通

17、过等级考试，通过率为 6.67%. 如果上机成绩中等，按时完成作业，则通过等级考试，通过率为 20%. 如果上机成绩中等，未按时完成作业，理论成绩高，则通过等级考试，通过率为 6.67%. 2.4 规则约简规则 R可以用它的覆盖率和准确率评价，给定类标记的数据集 D 中的一个元组 X，设 ers n cov为规则 R 覆盖的元组数， correct n 为规则 R正确分类的元组数，|D| 是 D 中的元组数，则 | | ) ( cov cov D n R erage ers = ， ers correct n n R accuracy cov ) ( = ，依次计算“正例”规则的覆

18、盖率和准确率: coverage(R1)=6.67%,accuracy(R1)=100% coverage(R2)=20%,accuracy(R2)=100%. coverage(R3)=6.67%,accuracy(R3)=100% coverage(R4)=46.67%,accuracy(R4)=100%. coverage(R5)=6.67%,accuracy(R5)=100% coverage(R6)=13.33%,accuracy(R6)=100%. 规则约简从三方面考虑，一是规则的长度 length(R)，二是规则的准确率 coverage(R)，三是规则的覆盖率 accurac

19、y(R). 依次按照规则长度与准确率的乘积 leng(R)*accuracy(R)、规则的长度及覆盖率对规则集进行排序，length(R)*accuracy(R)大的优先度高于 length(R)*accuracy(R) 小的规则; 若两者相等， length(R)大的优先度高于 length(R)小的; 若前二者相等，则 accuracy(R)高的优先度高于 accuracy(R)小的规则; 若前者均相等，则覆盖率高的优先度高于覆盖率小的规则，如表 2 所示. 表 2 规则约简优先级规则 length(R)* accuracy(R) Length (R) Accurac y (

20、R) Coverage (R) 1 R6 3 3 1 0.1333 2 R3 3 3 1 0.0667 3 R5 3 3 1 0.0667 4 R2 2 2 1 0.2 5 R4 1 1 1 0.4667 6 R1 1 1 1 0.0667 3 真实数据分别从我院非计算机专业 2009-2011 级学生等考数据库中随机抽取 600 条记录，按一定比例数据作为训练样本，其余作为预测数据，由训练样本构造决策树模型，用该模型预测数据，并与每届学生的真实通过情况进行对比，最终结果如表 3 所示. 表 3 仿真数据年级数据集(条记录) 训练样本比例预测数据预测准确率通过不

21、通过正确不正确 2009 600 30% 291 129 363 57 86.4286% 2010 600 40% 253 107 310 50 86.1111% 2011 600 50% 207 93 257 43 85.6667% 计算机系统应用 http:/www.c-s- 2014 年第 23 卷第 6 期 240 研究开发 Research and Development 4 结语鉴于以上结论，决策树用于预测学生等级考试成绩具有较高的准确率. 从挖掘的规则分析出，在计算机等级考试的课程教学过程中，需要强化上机练习，这与江苏省等级考试重点在上机操

22、作是吻合的. 并要求学生按时完成作业，按时完成作业的学生通过的可能性较大. 而学生的计算机基础，对能否通过等级考试影响不大. 参考文献 1 段薇,马丽.基于信息增益和最小距离分类的决策树改进算法.科学技术与工程,2013,2(6):16711815. 2 吴铁洲,曾艺师.决策树分类算法在教学评估中的应用.中国高等教育评估,2013,6(2):2426. 3 黄宇达.基于朴素贝叶斯与 ID3 算法的决策树分类.计算机工程,2012,14(7):4144. 4 王守选,叶柏龙.决策树、朴素贝叶斯和朴素贝叶斯树的比较.计算机系统应用,2012,21(12):221224 5 常秉琨.基于改进 ID3 的分类规则挖掘研究.微计算机信息,2009,5(12):218220. 6 韩家炜.数据挖掘概念与技术.北京:机械工业出版社,2008. 7 孙林,徐久成.基于决策熵的决策树规则提取方法.计算机技术与发展,2007,2(6):97100.

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

此文档不允许下载，请继续在线阅读

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 决策树计算机等级考试中的应用

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：决策树在计算机等级考试中的应用-丁勇.pdf
链接地址：https://www.deliwenku.com/p-201170.html