大数据中的数据分析 .doc
《大数据中的数据分析 .doc》由会员分享,可在线阅读,更多相关《大数据中的数据分析 .doc(40页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、大数据中的数据分析摘 要时代的变迁,迎来了科学技术的创新,同样也迎来了经济的快速发展。而网络已经成为了我国人们的生活中的习惯,早已是必不可缺的东西了,这也成为了社会发展的前提。传统计算机模式与MATLAB软件技术相比较,传统软件运行起来较为复杂。以此基于MATLAB软件下的网络数据技术,它以高速化、关联化的优势成为人们眼中的焦点。本文针对传统网络软件模式中出现的问题,对基于MATLAB大数据技术进行探究。关键词 MALAB软件;网络媒体;大数据;技术研究Data Analysis in Large DataAbstractThe changes of the times have ushere
2、d in the innovation of science and technology, as well as the rapid development of economy. And the network has become a habit of our peoples life, has long been an indispensable thing, which has also become a prerequisite for social development. Compared with the MATLAB software technology, the tra
3、ditional computer model is more complex. Based on the network data technology under the software of MATLAB, it has become the focus of peoples eyes with the advantages of high-speed and relevance. Aiming at the problems in the traditional network software model, this paper explores the large data te
4、chnology based on MATLAB.Keywords MALAB software; network media; big data; technology research目 录第1章 绪论31.1引言31.2研究背景31.3 研究意义51.4 研究现状5第2章 预备知识52.1线性代数与矩阵论基础52.2MATLAB数据导入、数据预处理和矩阵生成72.3 MATLAB图像处理函数92.4 数据降维与矩阵分解算法11第3章 手写字体识别153.1文本识别主要方法与技术153.2 手写字体的分类153.3阿拉伯数字识别173.4 中、英文手写字体的识别19第4章 基于MATLAB
5、的手写字体分析与识别214.1MATLAB常用函数及处理214.2 手写字体自动识别神经网络设计234.3 手写字体识别训练与实例27第5章 总结与展望315.1本文主要工作315.2 进一步思考:动态识别335.3 多维矩阵的应用33致 谢参 考 文 献33第1章 绪论1.1 引言随着需求的增加,传统技术的统计方法逐渐被大数据取代,成为信息收集和设定的主要形式。大数据又作为巨大的数据被知道。因此,管理模式不能被传统的过程分析,它在生产和人生中扮演着越来越重要的角色。1.2 研究背景随着计算机存储容量的提高和复杂算法的开发,近年来,数据量在指数函数上增加了。这些动向使科学技术的发展与日俱增,商
6、业模式也发生了破坏性变化。分析时代:世界大数据竞争是McKinsey Global Institute(MGI)在2016年12月发表的报告。年前,MGI指出,大数据分析可在位置上的服务、美国的零售、制造、欧盟公共部门和美国的健康管理方面有较大的增长潜力。数据已商业化,形成了网络、智能手机、传感器、相机、结算系统等数据产生庞大商业价值的资产。苹果,亚马逊,Facebook,Google,一般的微软和阿里巴巴,利用大数据分析和独特的优势改变了竞争的基础,建立了新的商业模式。稀有数据的所有者使用数字网络平台独占一些市场。他们可以用独特的方法综合和分析数据,并提供宝贵的数据分析,使他们几乎能够获胜“
7、全部获胜”。2011年,全球数据储量达到1.8 zb。与2011年相比,2015年大数据增加了近4倍。在下一个10年,全球数据存储将增加10倍。大数据将增强产业竞争力,成为创新商业模式的新方法。大数据完全应用于企业,实现了巨大的商业价值。梅西百货店的sas系统可以根据7300项的需求和库存来实现实时价格。零售低聚合物Morma使用语义数据技术通过最新的搜索引擎Polaris,提高10 %到15 %在线购物的完成率。中国的信息和数据资源80%以上都在政府部门手中,但是,很多数据被世界孤立而浪费了。2015年,国家会议发布了一个行动平台,推动数据的发展。而且,这显然需要“政府数据统一开放的平台必须
8、在2018年底前建设”。今年5月,国务院总务局发表了政府信息系统的合并和共享的实施计划,促进了政府数据向社会开放。大数据可以使人们从旧的价值观和发展观中解放出来,改变人们对工作、生活观的看法,从新展望中认识到科学技术的进步和复杂技术的出现。大数据应用程序非常广泛。通过对大规模数据的分析,利用数据的完整性和出现、相关性、不确定性、多样性和非线性性、平行性、实时性对公共交通工具、公共安全性、社会管理、其他领域的大数据的应用进行了研究。大的数据,与云计算和互联网的东西一起,使很多的事成为可能,新的经济增长的要点。随着以数据科学为中心的计算机技术的快速发展,大数据推动了社会科学、自然科学等科学研究的发
9、展。因此,对内蒙古国家和全国各大数据的研究具有深远的重要性。1.3 研究意义随着信息互联网的发展,人类进入了对时代发展产生巨大影响的数据新时代。2017年8月30日,国家旅游局、云南办事处、中国电信集团联合结成“旅游消费合作研究所”,首次发表“2017年上半年中国旅游消费大数据报告”的技术领域、大数据能力、市场资源和经验。通过签署“旅游消费数据共同研究所”,我们可以共享资源,互补互惠,共同开发双赢。加强各领域合作,有利于促进国内旅游转变和高度化,促进在新的正常情况下发展和应用全球旅游。2017年上半年,“虽说是旅游消费量,但却是数据共同研究所”的第一个重要研究成果。旅游消费有普及的倾向。系统预
10、测了旅游产业今后发展的信息化、数字化、智能化提供基准和指导的2017年上半年路径优化特征。1.4 研究现状大的数据参考由特定时间范围的常规软件工具捕获、管理和无法处理的数据集合。它需要一个新的处理模式,具有强大的决策力、洞察力和进程优化能力,具有巨大的增长速度和更强的决策能力,信息资产多样化,数据充满了人类经济和社会角度。准确地说,由于其巨大的商业价值,国内外学者对理论、技术和实践进行了彻底的研究。1980年,阿尔文托弗勒作为彩色运动的第三波考虑了大的数据。IBM建议大数据具有5 V特性,即音量(大)、速度(快)、综艺(多样性)、价值(低值密度)、真实性(可靠性)。2012年,Gartner相
11、信不到2年,大的数据成为新技术开发的热点。大规模和多样化的信息资产需要较大的处理模式,以便提供数据信息用户的有效信息,提高企业的能力,认识危险性,优化过程,做出更准确的决策。维克特指出,大数据时代:为了获得大数据时代的宝贵信息,人生发生了巨大的变化,工作和思想。此外,我们应该注意数据之间的相关性,而不是探索不可捉摸的因果律,追加复杂的数据而不是追求数据的正确性。在公布的数字提取器中,欧盟表示,公开数据的市场价值约为32亿欧元,公开数据和再利用可以创造新的商业和就业机会。开放银行和公共数据,提高政府的开放性和透明度,可以给人们更多的选择和价值的商品。大不列颠对大的数据技术的开发和研究非常重要。政
12、府投资6000万英镑,集中于信息产业新大数据技术开发,支持相关研究机构和研发工作。我们政府、产业和研究人员也进行了相应的理论和实践研究。2015年9月,国家会议发行了促进大数据发展的行动平台(以下简称平台),系统地开展大数据开发。2016年3月17日公布了中华人民共和国国家经济社会发展的第13次5年计划的概要。大规模数据应作为基本战略资源,促进大规模数据开发的行动应该在全部轮流中实施,必须加快数据资源的共享和开放,并加快产业变化、产业转型高度化和社会性应该推进治理。创新包括:加快开放政府数据共享,促进大数据产业健康发展。第2章 预备知识2.1 线性代数与矩阵论基础线性代数是数学领域。研究的目的
13、是矢量、矢量空间(线性空间)、线性变换和有限维线性方程式。矢量空间是现代数学中重要的课题。因此,线性代数被广泛用于抽象代数和函数解析。线性代数的理论一般化为运算符理论。线性代数,因为科学的研究的非线性模型,作为通常线性模型能近似,在自然和社会科学广泛地被使用。线性代数主要是处理线性关系的代数的分支。线性关系意味着数学对象之间的关系用单一的形式表示。例如,在分析几何学中,平面上的直线的方程式是二次线性方程式,空间平面的方程式是三次线性方程式,空间直线被认为是两个平面的交点。把具有n个未知数的一次方程式称为线性方程式。变量为一次函数的函数称为线性函数。线性关系问题被称为线性问题。线性方程式的解法是
14、最简单的线性问题。所谓“线性”,指的就是如下的数学关系:其中,f叫线性算子或线性映射。所谓“代数”,指的就是用符号代替元素和运算,也就是说:我们不关心上面的x,y是实数还是函数,也不关心f是多项式还是微分,我们统一把他们都抽象成一个记号,或是一类矩阵。合在一起,线性代数研究的就是:满足线性关系的线性算子f都有哪几类,以及他们分别都有什么性质。在数学中,矩阵是复数或实数值的集合,原本配置在从系数的正则矩阵和方程式的常数导出的长方形的排列中。这个概念是19世纪由英国数学家凯利提出的。矩阵是高等代数的一般工具,另外,在统计分析等应用数学上也很普遍。在物理学中,矩阵用于电路、力学、光学、量子物理学。在
15、计算机科学方面,三维动画也需要矩阵。矩阵的动作在数值解析的领域是重要的问题。将矩阵分解成简单矩阵的组合可以使理论和实际矩阵的操作更加简单。对于一些具有广泛应用和特殊格式的矩阵,如疏散矩阵和准对角矩阵,有特定的高速算法。关于矩阵理论的展开和应用请参照矩阵理论。在天体物理学和量子力学的领域,也出现了无限次元矩阵。数值分析的主要领域是为数个世纪以来被作为对象的扩展的研究领域数组计算提供了有效的算法的开发。矩阵分解法简化理论和实用计算。为特定矩阵结构(诸如疏散矩阵和近角矩阵)定制的算法加快了有限元件法和其它计算中的计算。无限矩阵发生在行星理论和原子论上。无限矩阵的简单示例是表示函数的taylor级数的
16、微分运算符的矩阵。由 m n 个数aij排成的m行n列的数表称为m行n列的矩阵,简称m n矩阵。记作:这mn 个数称为矩阵A的元素,简称为元,数aij位于矩阵A的第i行第j列,称为矩阵A的(i,j)元,以数 aij为(i,j)元的矩阵可记为(aij)或(aij)m n,mn矩阵A也记作Amn。元素是实数的矩阵称为实矩阵,元素是复数的矩阵称为复矩阵。而行数与列数都等于n的矩阵称为n阶矩阵或n阶方阵。2.2 MATLAB数据导入、数据预处理和矩阵生成数据聚类分析的形式,就是网络媒体中大数据技术的重要表现之一。如图一所示,该图是网络媒体的大数据聚类分析结构示意图。我们可以从图中看出,它的整个过程非常
17、合理、井然有序。第一,系统自动输入操作应用规则以读取数据中心的应用模式。然后,将各数据的生成点按顺序进行分类,设定为初始化处理。当数据达到一定量的时候,系统根据接近的原理被分割。分割后的值由计算类的中心管理。当整个处理完成后,可以确定是否修改了类中心,最终可以根据整个结果来计算较大的数据。这种大的数据统计方法不仅有效,在地区空间中也可以重建网络媒体平台。面对非结构化和散射数据,MATLAB软件进入高速运行状态。首先,使用媒体下的网络应用端口收集数据,用matlab软件对照并重新组合收集的数据。这样,当用户搜索信息数据时,只要他们在网络媒体平台下搜索,他们就没有线索,他们就能完成整个过程的重要部
18、分。最重要的是,这一步提供了深入的数据采矿的重要基础。大数据的深度挖掘:您可以想象,大数据包的深度挖掘是网络媒体的重要组成部分。深度挖掘数据模式主要包括4个模块。第一个是数据关联解析。如果数据中的两个或两个以上数据之间的关系,则该表达可以称为关联性。关联性分析主要对整个媒体网络平台上的每个用户的身份进行分类,将集成系统的组件一起分割,计数独立的模块,找到网络的隐藏链接。另外,也可以将键模块定量地设定,并将其他模块定量地变化的模块分割。还有MATLAB软件的统计工具箱。系统可以计算模块之间的分散,并根据总和找到它们的关系。第二,数据可视化。数据的可视化是最重要的部分之一。MATLAB软件具有超视
19、觉功能。这可以通过系统将数据转换成二维或三维图形。操作员可以清楚地看到计算机数据的修改规则。例如,企业想对产品操作上的风险做统计。MATLAB软件可以表示变量之间的比例关系,并创建可变曲线风险评估图表。通过这种可视化的结果,企业经理可以直观地了解产品是否有开发的余地,是否能够适应公共的方向,并做出最正确的决定。第三,异常值的检测。在媒体网络的大规模数据技术管理下,大规模信息的特征在matlab系统中被显示。可以看清哪个值是典型的。在曲线变化的过程中,经常有伴随非常大的变动的若干像。而且,这还影响表示数据不同、进行正确判断的决策者。由于在MATLAB系统中使用奇偶校验和R乘指数F的计算术来获得标
20、准值,然后将其他参数进行比较,因此人们能够更好地理解偏差。2.3 MATLAB图像处理函数1、图像的变换ft2:f2函数用于数字图像的二维傅立叶变换,如:i=imread(104_8.tif);j=ft2();fft2:ff2函数用于数字图像的二-维傅立叶反变换,如:i=imread(104_8.tif);j=ft2(i);k=ifft2(i);2、模拟噪声生成函数和预定义滤波器imnoise:用于对图像生成模拟噪声,如:i=imread(104_8.tif);j=imnoise(,gaussian,0,0.02);%模拟高斯噪声fspecial:用于产生预定义滤波器,如:h=fspecial
21、sobel);%sobel水平边缘增强滤波器h=fspecial(gaussian);%高斯低通:滤波器h=fspecial(laplacian);%拉普拉斯滤波器h=fspecial(log);%高斯拉普拉斯(LoG)滤波器h=fspecialaverage);%均值滤波器2、图像的增强直方图:imhist函数用于数字图像的直方图显示,如:i=imread(104_8.tif);imhist(i);直方图均化:histeq函数用于数字图像的直方图均化,如:,i=imread(104_8.tif);j=histeq(i);对比度调整:imadjust函数用于数字图像的对比度调整,如:i=imr
22、ead(104_8.tif);j=imadjust(,0.3,0.7,);对数变换:log函数用于数字图像的对数变换,如:i=imread(104_8.tif);j=double(i);k=log(i);基于卷积的图像滤波函数:filter2函数用于图像滤波,如:i=imread(104_8.tif);h=1,2,1;0,0,0;1,2,-1;j=filter2(h,i);线性滤波:利用二维卷积conv2滤波,如:i=imread(104_8.tif);h=1,1,1;1,1,1;1,1,1;h=h/9;j=conv2(i,h);中值滤波:medfilt2函数用于图像的中值滤波,如:i=imr
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据中的数据分析 数据 中的 分析
限制150内