2022年大数据应用解决方案38.doc
《2022年大数据应用解决方案38.doc》由会员分享,可在线阅读,更多相关《2022年大数据应用解决方案38.doc(39页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、大数据应用处理方案目 录1.大数据概述61.1.概述61.2.大数据定义61.3.大数据技术开展82.大数据应用112.1.大数据应用阐述112.2.大数据应用架构132.3.大数据行业应用132.3.1.医疗行业132.3.2.能源行业142.3.3.通讯行业142.3.4.零售业153.大数据处理方案163.1.大数据技术组成163.1.1.分析技术163.1.1.1.可视化分析163.1.1.2.数据挖掘算法163.1.1.3.预测分析才能163.1.1.4.语义引擎163.1.1.5.数据质量和数据治理173.1.2.存储数据库173.1.3.分布式计算技术183.2.大数据处理过程2
2、03.2.1.采集203.2.2.导入/预处理213.2.3.统计/分析213.2.4.挖掘213.3.大数据处理的核心技术-Hadoop213.3.1.Hadoop的组成223.3.2.Hadoop的优点:253.3.2.1.高可靠性。253.3.2.2.高扩展性。253.3.2.3.高效性。253.3.2.4.高容错性。253.3.3.Hadoop的缺乏253.3.4.主要商业性“大数据”处理方案263.3.2.5.IBM InfoSphere大数据分析平台263.3.2.6.Or a c l e Bi g Da t aApplianc273.3.2.7.Mi c r o s o f t
3、S QLServer273.3.2.8.Sybase IQ283.3.5.其他“大数据”处理方案283.3.2.9.EMC283.3.2.10.BigQuery293.3.6.大数据”与科技文献信息处理293.4.大数据处理技术开展前景293.4.1.大数据复杂度降低293.4.2.大数据细分市场303.4.3.大数据开源303.4.4.Hadoop将加速开展303.4.5.打包的大数据行业分析应用303.4.6.大数据分析的革命性方法出现313.4.7.大数据与云计算:深度交融313.4.8.大数据一体机陆续发布314.基于基站大数据应用及案例324.1.气象灾祸应急短信发布平台324.1.
4、1.概述324.1.1.1.工程背景324.1.1.2.平台概述324.1.2.平台建立特点与原则324.1.2.1.建立特点324.1.2.2.建立原则324.1.2.3.大数据治理平台特点334.1.3.平台整体架构334.1.3.1.建立原理334.1.3.2.平台总体设计351.平台总体构造352.平台技术架构364.1.3.3.平台技术思路374.1.3.4.平台技术道路381.内存数据库382.短信发送多链路配置383.队列缓存384.参数可配置384.1.3.5.平台功能要求384.1.4.平台网络拓扑384.1.5.平台关键流程394.1.5.1.平台数据流程394.1.5.2
5、.平台业务主流程404.1.5.3.短信下发审批流程414.1.5.4.信令分析处理流程424.1.5.5.短信发送流程434.1.6.平台功能模块434.1.6.1.信令分析子系统434.1.6.2.短信发送子系统441.短信发送功能442.短信回执接收功能443.短信批量发送治理功能454.统计报表454.1.6.3.治理子系统451.用户治理452.权限治理463.实时监控464.日志治理465.基站位置信息治理466.系统参数配置治理464.1.6.4.内容数据库子系统464.1.7.平台外部接口474.1.7.1.信令采集接口471.接口说明472.数据采集方式474.1.7.2.短
6、信发送接口471.短信发送通知接口472.短信发送状态查询接口473.短信发送接口474.1.7.3.基站位置信息接口481.数据同步方式482.基站位置信息全量同步接口483.基站位置信息增量同步接口484.2.旅游客源分析484.2.1.建立目的484.2.2.整体方案494.2.2.1.方案思路494.2.2.2.分析范围494.2.2.3.方案特点504.2.3.方案设计514.2.3.1.系统关系514.2.3.2.系统架构511.数据分析后台才能522.Web前台才能524.2.3.3.数据采集534.2.3.4.业务分析531.总体分析流程532.景区综合流量统计分析543.景区
7、游客来源地构成分析554.景区全网总游客实时估算575.景区流量预判模型分析586.景区流量上限告警597.旅游景点热度排名分析598.旅游线路归类统计609.景区与相关场所关联分析614.2.3.5.界面功能介绍611.菜单功能列表622.界面辅助功能介绍633.运营部门应用Portal644.用户权限641. 大数据概述1.1. 概述大数据,IT行业的又一次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的妨碍,并将成为云计算、物联网之后信息技术产业领域又一严重创新变革。将来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐步成熟,挪动带宽迅速提升、云
8、计算、物联网应用更加丰富、更多的传感设备、挪动终端接入到网络,由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。数据技术开展历史如图一所示:图一1.2. 大数据定义“大数据”是一个涵盖多种技术的概念,简单地说,是指无法在一定时间内用常规软件工具对其内容进展抓取、治理和处理的数据集合。IBM将“大数据”理念定义为4个V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)及由此产生的价值(Value)。如图二;图二要理解大数据这一概念,首先要从大入手,大是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区
9、别,其根本特征能够用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。 数据体量宏大。从TB级别,跃升到PB级别。 数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。 价值密度低。以视频为例,连续不连续监控过程中,可能有用的数据仅仅有一两秒。 处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、挪动互联网、车联网、平板电脑、PC以及遍及地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。处理大数
10、据征询题的核心是大数据技术。目前所说的大数据不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是开展大数据技术并将其应用到相关领域,通过处理巨量数据处理征询题促进其打破性开展。因而,大数据时代带来的挑战不仅表达在如何处理巨量数据从中获取有价值的信息,也表达在如何加强大数据技术研发,抢占时代开展的前沿。1.3. 大数据技术开展大数据技术描绘了一种新一代技术和构架,用于以特别经济的方式、以高速的捕获、发觉和分析技术,从各种超大规模的数据中提取价值,而且将来急剧增长的数据迫切需要寻求新的处理技术手段。如图三所示:图三在“大数据”(Big data)时代,通过互联网、社交网
11、络、物联网,人们能够及时全面地获得大信息。同时,信息本身存在方式的变化与演进,也使得作为信息载体的数据以远超人们想象的速度迅速膨胀。云时代的到来使得数据制造的主体由企业逐步转向个体,而个体所产生的绝大部分数据为图片、文档、视频等非构造化数据。信息化技术的普及使得企业更多的办公流程通过网络得以实现,由此产生的数据也以非构造化数据为主。估计到2012年,非构造化数据将到达互联网整个数据量的75%以上。用于提取智慧的“大数据”,往往是这些非构造化数据。传统的数据仓库系统、BI、链路挖掘等应用对数据处理的时间要求往往以小时或天为单位。但“大数据”应用突出强调数据处理的实时性。在线个性化推荐、股票买卖处
12、理、实时路况信息等数据处理时间要求在分钟甚至秒级。全球技术研究和征询公司Gartner将“大数据”技术列入2012年对众多公司和组织机构具有战略意义的十大技术与趋势之一,而其他领域的研究,如云计算、下一代分析、内存计算等也都与“大数据”的研究相辅相成。Gartner在其新兴技术成熟度曲线中将“大数据”技术视为转型技术,这意味着“大数据”技术将在将来35年内进入主流。而 “大数据”的多样性决定了数据采集来源的复杂性,从智能传感器到社交网络数据,从声音图片到在线买卖数据,可能性是无穷无尽的。选择正确的数据来源并进展穿插分析能够为企业制造最明显的利益。随着数据源的迸发式增长,数据的多样性成为“大数据
13、”应用亟待处理的征询题。例如如何实时地及通过各种数据库治理系统来平安地访征询数据,如何通过优化存储策略,评估当前的数据存储技术并改良、加强数据存储才能,最大限度地利用现有的存储投资。从某种意义上说,数据将成为企业的核心资产。“大数据”不仅是一场技术变革,更是一场商业方式变革。在“大数据”概念提出之前,尽管互联网为传统企业提供了一个新的销售渠道,但总体来看,二者平行开展,鲜有交集。我们能够看到,不管是Google通过分析用户个人信息,依照用户偏好提供精准广告,依然Facebook将用户的线下社会关系迁移在线上,构造一个半真实的实名帝国,但这些商业和消费方式仍不能脱离互联网,传统企业仍无法嫁接到互
14、联网中。同时,传统企业通过传统的用户分析工具却特别难获得大范围用户的真实需求。企业从大规模制造过渡到大规模定制,必须掌握用户的需求特点。在互联网时代,这些需求特征往往是在用户不经意的行为中透露出来的。通过对信息进展关联、参照、聚类、分类等方法分析,才能得到答案。“大数据”在互联网与传统企业间建立一个交集。它推进互联网企业交融进传统企业的供给链,并在传统企业种下互联网基因。传统企业与互联网企业的结合,网民和消费者的交融,必将引发消费方式、制造方式、治理方式的宏大变革。大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的开展,相关技术呈现百花齐放场面,并在互联网应用领域崭露头角,详细情况
15、如下列图四所示:图四大数据将带来宏大的技术和商业机遇,大数据分析挖掘和利用将为企业带来宏大的商业价值,而随着应用数据规模急剧增加,传统计算面临严峻挑战,大规模数据处理和行业应用需求日益增加和迫切出现越来越多的大规模数据处理应用需求,传统系统难以提供足够的存储和计算资源进展处理,云计算技术是最理想的处理方案。调查显示:目前,IT专业人员对云计算中诸多关键技术最为关怀的是大规模数据并行处理技术大数据并行处理没有通用和现成的处理方案关于应用行业来说,云计算平台软件、虚拟化软件都不需要本人开发,但行业的大规模数据处理应用没有现成和通用的软件,需要针对特定的应用需求专门开发,涉及到诸多并行化算法、索引查
16、询优化技术研究、以及系统的设计实现,这些都为大数据处理技术的开展提供了宏大的驱动力,2. 大数据应用2.1. 大数据应用阐述大数据能做什么?我们那么多地点讨论大数据,无非总结下来就做三件事:第一,对信息的理解。你发的每一张图片、每一个新闻、每一个广告,这些都是信息,你对这个信息的理解是大数据重要的领域。第二,用户的理解,每个人的根本特征,你的潜在的特征,每个用户上网的习惯等等,这些都是对用户的理解。第三,关系。关系才是我们的核心,信息与信息之间的关系,一条微博和另外一条微博之间的关系,一个广告和另外一个广告的关系。一条微博和一个视频之间的关系,这些在我们肉眼去看的时候是相对简单的。比方有条微博
17、说这两天朝鲜绑架我们船的事,那条微博也大概是谈这件事的。人眼一眼就能看出来。但是用机器如何能看出来这是一件事,以及他们之间的因果关 系,这是特别有难度的。然后确实是用户与用户之间的关系。哪些人你愿意收听,是你的朋友,哪些是你感兴趣的领域,你是一个音乐达人,你是一个吃货,那个用户也 是一个吃货,你愿意收听他。这确实是用户与用户之间的关系理解。还有用户与信息之间的理解,确实是你对哪一类型的微博感兴趣,你对哪一类型的信息感兴趣,假如 牵扯到商业化,你对哪一类的广告或者商品感兴趣。事实上确实是用户与信息之间的关系,他无非是做这件事。大数听说的那么悬,事实上主要是做三件事:对用户的理解、对信息的理解、对
18、关系的理解。假如我们在这三件事之间还要提一件事的话,一个叫趋势。 他也是关系的一种变种,只是关系略微远一点,情感之间的分析,还有我们政府部门做的舆情监控。他能够监控大规模的数据,能够分析出人的动向。在美国的好莱 坞,这两年也是基于FACEBOOK和TIWTTER的数据来预测马上上映的电影的票房。他也是一个趋势的分析,只是我们把这个趋势提早来。核心确实是这三件事。2.2. 大数据应用架构2.3. 大数据行业应用2.3.1. 医疗行业1. Seton Healthcare是采纳IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术同意企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析
19、病人的信息。2. 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提早明白哪些早产儿出现征询题同时有针对性地采取措施,防止早产婴儿夭折。3. 它让更多的创业者更方便地开发产品,比方通过社交网络来搜集数据的健康类App。也许将来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提示你再次服药。2.3.2. 能源行业1. 智能电网如今欧洲已经做到了终端,也确实是所谓的智能电表。在德国,为了鼓舞利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候
20、还能够买回来。通过电网搜集每隔五分钟或十分钟搜集一次数据,搜集来的这些数据能够用来预测客户的用电习惯等,从而推断出在将来23个月时间里,整个电网大概需要多少电。有了这个预测后,就能够向发电或者供电企业购置一定数量的电。由于电有点像期货一样,假如提早买就会比拟廉价,买现货就比拟贵。通过这个预测后,能够降低采购本钱。2. 维斯塔斯风力系统,依托的是BigInsights软件和IBM超级计算机,然后对气象数据进展分析,找出安装风力涡轮机和整个风电场最正确的地点。利用大数据,以往需要数周的分析工作,如今仅需要缺乏1小时便可完成。2.3.3. 通讯行业1. XO Communications通过使用IB
21、M SPSS预测分析软件,减少了将近一半的客户流失率。XO如今能够预测客户的行为,发觉行为趋势,并找出存在缺陷的环节,从而协助公司及时采取措施,保存客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、效劳、客户分析视图的可扩展平台,协助通讯企业制定更科学、合理决策。2. 电信业者透过数以千万计的客户材料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的材料经济。3. 中国挪动通过大数据分析,对企业运营的全业务进展针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。4. NTT docomo把
22、位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息效劳。2.3.4. 零售业1. 我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供效劳。公司希望向客户提供差异化效劳,如何定位公司的差异化,他们通过从 Twitter 和 Facebook 上搜集社交信息,更深化的理解化装品的营销方式,随后他们认识到必须保存两类有价值的客户:高消费者和高妨碍者。希望通过接受免费化装效劳,让用户进展口碑宣传,这是买卖数据与交互数据的完满结合,为业务挑战提供理处理方案。Informatica的技术协助这家零售商用社交平台上的数据
23、充实了客户主数据,使他的业务效劳更具有目的性。2. 零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与买卖记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经协助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。3. 大数据处理方案1.2.3.3.1. 大数据技术组成大数据技术由四种技术构成,它们包括:3.1.1. 分析技术分析技术意味着对海量数据进展分析以实时得出答案,由于大数据的特别性,大数据分析技术还处于开展阶段,老技术会日趋完善,新技术会更多出现。大数据分析技术涵盖了以下的的五个方面
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 数据 应用 解决方案 38
限制150内