基于数据挖掘的航班延误的分析与预测_闵捷(1).docx
《基于数据挖掘的航班延误的分析与预测_闵捷(1).docx》由会员分享,可在线阅读,更多相关《基于数据挖掘的航班延误的分析与预测_闵捷(1).docx(66页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、中图分类号:TP181学科分类号:082303论文编号:1028707 18-S030硕士学位论文基于数据挖掘的航班延误的分析与预测研宄生姓名闵捷学科、专业交通运输规划与管理研宄方向交通运输系统优化指导教师高强副教授南京航會航天大学Nanjing University of Aeronautics and AstronauticsThe Graduate SchoolCollege of Civil AviationAnalysis and Prediction of Flight DelayBased on Data MiningA Thesis inTransportation Plann
2、ing and ManagementbyMin JieAdvised byAssociate Prof. Gao QiangSubmitted in Partial Fulfillmentof the Requirementsfor the Degree ofMaster of EngineeringMarch, 2018承诺书本人声明所呈交的硕士学位论文是本人在导师指导下进 行的研宄工作及取得的研究成果。除了文中特别加以标注和致 谢的地方外,论文中不包含其他人己经发表或撰写过的研究成 果,也不包含为获得南京航空航天大学或其他教育机构的学位 或证书而使用过的材料。本人授权南京航空航天大学可以将
3、学位论文的全部或部 分内容编入冇关数据库进行检索,吋以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本承诺书)n 期 t aULiE近年来,伴随着民航出行需求的快速增长,航班量逐年递增,航班延误问题也日渐严重。 当航班延误不可避免时,分析和总结航班延误的相关规律可以为减轻航班延误提供有效建议和 有益参考。本文收集了某航空公司和OAG数据库的大量历史数据,采用统计学和数据挖掘相 关方法发现海量数据背后潜藏的规律和知识。本文通过统计历年航班数据找出导致航班延误的主要原因。利用决策树模型找到对当前航 班延误类型影响最大的因素,同时分析了不同航班延误类型的出现条件,并
4、得到了置信度在0.9 以上的决策规则。通过统计和分析不同因素下首航班和非首航班的航班延误率的变化,找到了影响首航班延 误率和非首航班延误率的因素。采用TAN贝叶斯网络模型对首航班和非首航班的延误状态进行 建模,得到了影响首航班和非首航班延误状态的主要因素,并且从定量角度分析了主要因素对 于航班延误状态的影响程度,同时发现部分因素之间存在关联。通过计算航班实际延误时间的均值、中位数、偏度等统计学指标,分析其变化趋势和极值 代表的意义,得出了实际延误时间在不同月份和不同小时的变化规律。借助改进后的KNN模 型建立了一种预测航班实际延误时间的模型,并根据RMSE和MAE选择使预测精度最高的 最佳K值
5、。本文借助统计学和数据挖掘的方法得到了航班延误原因、航班延误率和航班延误时间的相 关规律。这些研究结果对于航空公司认识航班延误规律和减少航班延误具有一定的参考价值。关键词:航班延误,数据挖掘,决策树,TAN贝叶斯网络,KNN南京航空航天大学硕士学位论文ABSTRACTDue to the growth of travel demand from passengers, flight delay has been a serious problem with the annual increase of flights in recent years. The research on the d
6、elayed flights would offer helpful advice to the decrease of flight delay when flight delay is inevitable. This dissertation employed the methods of statistics and data mining to seek the rules and knowledge hidden in the massive data collected from an airline company and OAG database.The main reaso
7、ns for flight delay were analyzed from statistics of massive data of recent years. The most influencing factor which leaded to the current flight delay type was discovered by using the Decision-Tree model. Moreover, the condition for each type of flight delays and decision rules with confidence degr
8、ee over 0.9 were also concluded from Decision-Tree model.The factors affecting the flight delay rates were sought out by analyzing the variance of delay rates for the first flight and non-first flights in a flight-string. The main factors, which had impact on the delays of first flight and non-first
9、 flights in a flight-string, and its influence levels were analyzed by applying the TAN Bayesian Network model. In addition, some factors were discovered to be dependent on other factors.The meanings of the changing tendency and extreme value about actual delay time in different months or hours were
10、 analyzed by calculating the Mean, Median, Skewness and other descriptive statistics of actual delay time. An improved model based on KNN for predicting actual delay time was proposed and then optimized by choosing an appropriate parameter K according to RMSE and MAE.In this dissertation some rules
11、about flight delay reasons, flight delay rates and flight delay time were found by the methods of statistics and data mining. These research findings would provide reference for the airline company to recognize the regulations of flight delays and to reduce flight delays.Key Words: flight delay, Dat
12、a Mining, Decision-Tree, TAN Bayesians Network, KNNm基于数据挖掘的航班延误的分析与预测目录H縣11.1本文的选题背景和研究意义11.1.1选题背景11.1.2研究意义21.2国内外研究现状21.2.1关于航班延误原因分析的研究现状和存在问题21.2.2关于航班延误预测的研究现状和存在问题31.3本文的研究内容与研究方法61.3.1研究内容61.3.2研究方法71.3.3技术路线7第二章航班延误原因分析82.1航班的延误原因分析82.2不同类型的航班延误发生条件分析102.2.1决策树102.2.2决策树的特点112.2.3决策树的构造112.
13、2.4构造航班延误类型的决策树132.3本章小结19第三章航班延误率的分析和预测213.1航班延误率的定义213.2影响航班延误率的不同因素213.3不同因素对航班延误状态的影响263.3.1贝叶斯网络263.3.2 TAN贝叶斯网络分析不同因素对航班延误状态的影响283.4本章小结35第四章航班实际延误时间的分析和预测374.1航班实际延误时间的定义37IV南京航空航天大学硕士学位论文4.2航班实际延误时间的分析374.2.1按照月份统计374.2.2按照小时统计404.3航班延误时间的预测414.3.1 KNN 算法414.3.2用KNN算法进行航班实际延误时间的预测424.4本章小结47
14、第五章总结和展望485.1研究工作总结485.2创新之处495.3研究展望49純文50至女i 射54在学期间的研究成果及发表的学术论文55V基于数据挖掘的航班延误的分析与预测图表清单图1.12006年一2016年中国民航运输业的航班量和航班正常率统计1图1.2本文的技术路线7图2.1不同原因引起的延误在每个月的频数9图2.2决策树的示意图11图2.3C5.0得到的解释变量对目标变量重要性18图2.4CART得到的解释变量对目标变量重要性19图2.5CHAID得到的解释变量对目标变量重要性19图3.1不同航线类型的航班延误率22图3.2不同月份的航班延误率23图3.3首航班的贝叶斯网络图33图3
15、.4不同因素对于首航班延误状态的影响大小33图3.5非首航班的贝叶斯网络图34图3.6不同因素对于非首航班延误状态的影响大小35表2.1不同延误原因引起的航班延误数占当月延误航班总数的比例(:) 9表2.2空管和流量引起的延误航班数与航班总量的相关性检验结果10表2.3决策规则的示意图11表2.4决策树不同算法的比较13表2.5机型分类方法14表2.6延误原因分类14表2.7起降机场分类14表2.8进行分类处理后的数据14表2.8进行分类处理后的数据(:续)15表2.9目标变量的不同类别的原始比例15表2.10平衡采样后目标变量的不同类别的比例15表 2.11C5.0、CART、CHAID、Q
16、UEST 的分类准确性16表2.12关于实际延误时间的决策规则16表2.12关于实际延误时间的决策规则(:续)17VI南京航空航天大学硕士学位论文表2.13延误原因和前序航班延误原因的列联表分析结果18表3.1 9种航线类型21表3.2不同机型的航班延误率23表3.3前序航班延误状态不同时的航班延误率23表3.4前序航班延误时间不同时当前航班的延误率24表3.5 不同计戈丨J过站时间的航班延误率24表3.5不同计划过站时间的航班延误率(:续)25表3.6所有航班串的比例25表3.7航班总数为4的航班串的不同航段顺序的航班延误率26表3.8航班总数为5的航班串的不同航段顺序的航班延误率26表3.
17、9航班总数为6的航班串的不同航段顺序的航班延误率26表3.10贝叶斯网络的四种学习算法28表3.11前序航班延误时间的分类29表3.12计划过站时间的分类29表3.13航线类型分类30表3.14月份分类30表3.15机型分类30表3.16前序航班延误状态的分类31表3.17航段顺序的分类31表3.18经过处理后的建立贝叶斯网络的数据31表3.19首航班的航线类型的条件概率34表3.20非首航班的前序航班延误时间的条件概率35表4.1实际延误时间按照月份统计的统计量38表4.2实际延误时间的均值、中值和延误航班数的相关系数检验结果39表4.3实际延误时间按照小时统计的统计量40表4.4机型分类方
18、法42表4.4机型分类方法(:续)43表4.5延误原因分类43表4.6起降机场分类43表4.7训练集数据44表4.8测试集数据44VII基于数据挖掘的航班延误的分析与预测表4.9 K取不同值时的RMSE和MAE46表4.9 K取不同值时的RMSE和MAE (:续)47VIII南京航空航天大学硕士学位论文缩略词缩略词英文全称TANTree Augmented NaiveCHAIDChi-squared Automatic InteractionCARTClassification and Regression TreesMAPMaximum a Posteriori EstimationEMEx
19、pectation MaximizationMCMCMarkov Chain Monte CarloPCAPrincipal Component AnalysisSVRSupport Vector RegressionKNNK-Nearest NeighborRMSERoot-Mean-Square ErrorMAEMean Absolute Error南京航空航天大学硕士学位论文第一章绪论1.1本文的选题背景和研究意义1丄1选题背景2006年以来,随着经济和社会的发展,我国民航旅客运输量逐年递增。据全国民航航班 运行效率报告统计(见图1.1),2006-2016年期间,我国民航业的航班量以年
20、均10.8%的速度 快速增加。与此相对的,航班正常率从总体上看表现为下降趋势(由于2016年航班正常率统计 方法改变,所以该年航班正常率略有回升)。2006年一2009年的航班正常率尚能保持80%以上, 从2009年之后航班正常率总体上呈下降趋势,2015年甚至降到了 68.33%。航班延误不但影响 旅客的出行计划,造成旅客时间和经济上的损失,引发旅客和航空公司、机场之间的矛盾,还 会增加航空公司的运营成本,干扰机场、空管等部门的正常运作。目前航班延误问题已经成为 旅客、航空公司和空管等民航业相关部门重点关注的问题。虽然由于种种原因,无法完全消除航班延误,但是可以采取种种措施来减少航班延误的发
21、 生,或者提前预测出延误并尽早通知旅客和相关部门,让各方都做好应对工作也是一种解决航 班延误的方法。图1.1 2006年一2016年中国民航运输业的航班量和航班正常率统计1基于数据挖掘的航班延误的分析与预测1.1.2研究意义一、充分发掘数据价值随着信息技术的发展,目前航空公司、空管部门、机场已经累积了海量的航班数据。以前 这些数据仅仅用于记录和查询,并未充分发掘出数据背后的价值。利用数据挖掘的方法,可以 对这些数据进行再加工,以期发现之前没有发现的规律和知识。二、为航空公司降低航班延误提供有益参考通过数据挖掘的各种方法寻找到该航空公司航班延误的主要原因和规律,帮助该公司的航 班进一步优化航班计
22、划,减少延误发生次数和延误时间。三、拓展数据挖掘方法在民航的应用目前数据挖掘方法已在各行各业广泛应用,在民航领域的应用尚处于初步阶段。现在国内 已有部分公司(例如飞常准、航班管家等公司)从服务旅客角度出发,利用数据方法得出航班 准点概率、计划起飞时间、计划到达时间等信息提供给广大旅客。本文将从服务航空公司的角 度出发,通过数据挖掘的方法,找出航空公司需要的有关航班延误的有益信息,为航空公司的 减少航班延误提供参考。1.2国内外研究现状1.2.1关于航班延误原因分析的研究现状和存在问题一、关于航班延误原因的定性分析邱红平(2011)根据某航空公司内部资料进行统计,将延误原因分为承运人原因(飞机晚
23、 到、机组原因、航班计划等)、非承运人原因(天气原因、流量控制、机场保障、自然灾害等)、 交叉原因(航班起降时段集中、旅客晚到和流量控制等原因同时发生、旅客因为延误霸占飞机 等)1。王娟娟等人(2012)根据行业经验总结出导致航班延误的原因为:天气原因、空域管 制(流量控制和军事活动)、飞机故障、飞机调配(飞机晚到)、旅客原因(旅客晚到、旅客霸 机等)2。曹卫东等人(2012)、邵荃等人(2013)、杨秀云等人(2014)、丁建立等人(2008)、 徐涛等人(2009)将航班延误原因主要分为天气原因(大风、暴雨、雷电、雪、雾霾等)、流量 原因(军事演习、空中航路拥挤等)、航空公司原因(飞机故障
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 挖掘 航班 延误 分析 预测 闵捷
限制150内