《大数据》PPT之六:第5章-R语言.pptx
《《大数据》PPT之六:第5章-R语言.pptx》由会员分享,可在线阅读,更多相关《《大数据》PPT之六:第5章-R语言.pptx(45页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用大数据刘鹏主编张燕张重生张志立副主编BIG DATA刘 鹏教授,清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长、中国大数据技术与应用联盟副理事长。主持完成科研项目25项,发表论文80余篇,出版专业书籍15本。获部级科技进步二等奖4项、三等奖4项。主编的云计算被全国高校普遍采用,被引用量在国内计算机图书类排名居前。创办了知名的中国云计算()和中国大数据()网站。曾率队夺得2002PennySort国际计算机排序比赛冠军,两次夺得全国高校科技比赛最高奖,并三次夺得清华大学科技比赛最高奖。荣获“全军十大学习成才标兵”(排
2、名第一)、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。第五章R语言5.1R语言简介5.2R与数据挖掘5.3SparkR全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用习题of4435.1 R语言简介大数据配套PPT课件用于统计计算和作图的语言计量经济学实证金融学统计遗传学等免费、开源及统计模块齐全R语言数据挖掘机器学习自然语言处理等十大热门编程语言第七位of4445.1 R语言简介大数据配套PPT课件基于S语言的一个GNU项目,语法来自Scheme语言,R语言的源代码正式发布到自由软件协会的FTP上核心开发团队达到20人,来自牛津大学、AT&T实验室
3、等等。不单是一门语言,更是一个数据计算与分析的环境,内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型S语言1995年2013年of445语言产生与发展历程5.1 R语言简介大数据配套PPT课件 R语言基本功能介绍l数据存储和处理系统l数组运算工具,(其向量、矩阵运算方面功能尤其强大)l完整连贯的统计分析工具l优秀的统计制图功能R语言是一套完整的数据处理、计算和制图软件系统,主要包括以下功能of4465.1 R语言简介大数据配套PPT课件u丰富的数据读取和存储能力l可以保存和加载R语言的数据,与R.data的交互是通过R
4、语言的save()函数和load()函数实现的l能够加载和导出.csv文件(write.csv()函数和read.csv()函数)l能够导入SPSS/SAS/Matlab等数据集l可以通过RODBC接口,从数据库中导入数据l可以通过odbcConnectExcel接口从Excel表格中导入数据R语言读取存储of4475.1 R语言简介大数据配套PPT课件u丰富的数据处理功能数据挖掘中,需要花70%以上的时间在数据处理上,R语言提供丰富的数据处理功能筛选filter()按给定的逻辑判断筛选出符合要求的子数据集排列arrange()按给定的列名依次对行进行排序选择select()用列名作参数来选择
5、子数据集变形mutate()或transformation()用来进行列变形汇总summarise()进行汇总操作,返回一维结果分组分组动作group_by()of4485.1 R语言简介大数据配套PPT课件u丰富的数据处理能力向量因子数组矩阵列表R语言处理数据的最基本单位是向量,而不是原子数据R语言定义了一类非常特殊的数据类型:因子数组是向量和矩阵的直接推广,是由三维或三维以上的数据构成的较复杂的继承关系,和数组的关系既是父亲又是儿子,还是孙子列表由向量直接派生而来数据框可以将几个不同类型但长度相同的向量合并到一个数据框特殊值数据定义了如NULL、NA、NaN、inf等特殊数据有用函数提供了
6、获取数据类型信息的一些有用函数of4495.1 R语言简介大数据配套PPT课件统计分析应用数学计量经济金融分析财经分析生物信息学数据可视化数据挖掘人工智能R语言应用领域of4410 R语言常见的应用领域第五章R语言5.1R语言简介5.2R与数据挖掘5.3SparkR全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用习题of44115.2 R与数据挖掘大数据配套PPT课件数据挖掘l数据挖掘(DataMining)是从大量的数据中发现有趣知识的过程,涉及统计学、机器学习、模式识别等多个交叉;l主要技术包括分类与预测、聚类、离群点检测、关联规则、序列分析和文本挖掘以及社交网络分析和情感分析等
7、。R语言与数据挖掘有关的任务视图lMachineLearning:主要涉及机器学习和统计学习功能lCluster:主要涉及聚类分析和有限混合模型lTimeSeries:主要涉及时间序列分析lMultivariate:主要用于多元统计分析及其算法lSpatial:主要用于空间数据分析R语言主要用于统计计算和统计制图,提供了大量的统计和制图工具of44125.2 R与数据挖掘大数据配套PPT课件K-近邻算法决策树支持向量机分类与预测算法u分类与预测算法of4413 R软件包与常见的数据挖掘算法介绍5.2 R与数据挖掘大数据配套PPT课件u分类与预测算法K-近邻算法of4414如果一个样本与特征空间
8、中的K个最相似(特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别library(kknn)data(iris)mval+prob=rep(1/m,m)iris.learniris.validiris.kknn+kernel=triangular)summary(iris.kknn)fittable(iris.valid$Species,fit)fitsetosaversicolorvirginicasetosa1200versicolor0210virginica0017kknn函数的使用 R软件包与常见的数据挖掘算法介绍5.2 R与数据挖掘大数据配套PPT课件u分类与
9、预测算法决策树of4415iris数据集的决策树决策树(DecisionTree)是一种依托于分类、训练上的预测树,根据已知预测、归类未来生成树阶段决策树修剪阶段 R软件包与常见的数据挖掘算法介绍5.2 R与数据挖掘大数据配套PPT课件u分类与预测算法支持向量机of4416支持向量机(SupportVectorMachine,SVM)是一个二分类的办法,即将数据集中的数据分为两类SVM中的超平面对比利用超平面分割数据集 R软件包与常见的数据挖掘算法介绍5.2 R与数据挖掘大数据配套PPT课件u聚类算法及其R包l“聚类”是根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组(或称为簇),并
10、对每个簇进行描述的过程l常用的聚类算法主要包括K-means聚类、层次聚类和基于密度的聚类K-means聚类层次聚类基于密度的聚类of4417 R软件包与常见的数据挖掘算法介绍5.2 R与数据挖掘大数据配套PPT课件u聚类算法及其R包K-means聚类of4418同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小部分鸢尾花数据的3-means聚类结果 R软件包与常见的数据挖掘算法介绍5.2 R与数据挖掘大数据配套PPT课件u聚类算法及其R包层次聚类of4419一层一层地进行聚类,可以从下而上地把小的cluster合并聚集,也可以从上而下地将大的cluster进行分割iris数据集中20个
11、样本的层次聚类结果 R软件包与常见的数据挖掘算法介绍5.2 R与数据挖掘大数据配套PPT课件u聚类算法及其R包基于密度的聚类of4420DBSCAN算法的数据集DBSCAN算法的密度聚类结果关键参数可到距离,用于定义邻域的大小eps最小数目的对象点MinPts R软件包与常见的数据挖掘算法介绍5.2 R与数据挖掘大数据配套PPT课件u离群点检测与R包离群点检测与R包单变量的离群点检测l返回的统计信息用于绘制箱体图l实现多变量离群点的检测多变量离群点检测局部离群点因子检测用聚类方法进行离散点检测l基于密度的局部离群点检测l将不属于任务一类的数据作为异常值检测of4421 R软件包与常见的数据挖掘
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据 数据 PPT 语言
限制150内