京东金融大数据分析平台总体架构v102013082782.pptx
《京东金融大数据分析平台总体架构v102013082782.pptx》由会员分享,可在线阅读,更多相关《京东金融大数据分析平台总体架构v102013082782.pptx(82页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、金融集团大数据分析平台总体架构议程大数据分析平台综述大数据分析平台综述1 1大数据分析平台总体架构2 2大数据分析平台演进路线3 3大数据分析平台一期实施重点4 4附录:数据质量管理平台5 5金融集团管理分析类应用建设现状基本分析关注的内容关注的内容存在的问题存在的问题基本的现状基本的现状商城数据仓库累积数据没商城数据仓库累积数据没有充分利用有充分利用缺乏面向整个金融集团的缺乏面向整个金融集团的统一、完整的数据视图;统一、完整的数据视图;缺乏支撑金融集团日常业缺乏支撑金融集团日常业务运转的风险评估体系;务运转的风险评估体系;缺乏金融集团客户缺乏金融集团客户360360度度视图,客户行为分析和预
2、视图,客户行为分析和预测无法实现;测无法实现;缺乏面向金融业务运营管缺乏面向金融业务运营管理的关键绩效指标体系;理的关键绩效指标体系;ll商城已建立面向整个零售业务的数据商城已建立面向整个零售业务的数据仓库,整合了前台业务运营数据和后仓库,整合了前台业务运营数据和后台管理数据,建立了面向零售的管理台管理数据,建立了面向零售的管理分析应用;分析应用;ll金融集团已开展供应链金融、人人贷金融集团已开展供应链金融、人人贷和保理等多种业务,积累了一定量的和保理等多种业务,积累了一定量的业务数据,同时业务人员也从客户管业务数据,同时业务人员也从客户管理、风险评级和经营规模预测等方面,理、风险评级和经营规
3、模预测等方面,提出了大量分析预测需求;提出了大量分析预测需求;ll数据平台、数据应用、数据管控数据平台、数据应用、数据管控数据平台、数据应用、数据管控基础数据平台和基础数据平台和基础数据平台和BIBIBI应用建设是未来一段时间的重点!应用建设是未来一段时间的重点!应用建设是未来一段时间的重点!ll数据平台整体架构;数据平台整体架构;ll 数据平台各层建设的标准;数据平台各层建设的标准;ll 较成熟的金融业数据模型;较成熟的金融业数据模型;ll 数据质量治理;数据质量治理;ll 元数据管理;元数据管理;ll 数据标准建设数据标准建设ll 数据整合;数据整合;ll 数据应用建设;数据应用建设;ll
4、 数据平台的软硬环境数据平台的软硬环境ll大数据分析平台建设目标外部非结构化数据统一制定目标和分析模型统一划分分析主题统一设计数据模式统一规划分析方法统一部署技术基础统一定义BI 应用自定义报表工具自定义报表工具行列的简单定义方式行列的简单定义方式多种格式报表多种格式报表集团决策层集团决策层集团职能管控层集团职能管控层各级业务操作层各级业务操作层关注集团主关注集团主要经营指标要经营指标业务人员使用业务人员使用BIBI应用实应用实现业务协作和创新现业务协作和创新BI BI 分析工具分析工具供应链金融系统POP系统其他业务系统云数据推送平台已实现了主要零售及金融业务系统数据清洗、整合,为未来金融集
5、团数据平台提供了丰富的数据源。通过数据平台和BI应用建设,金融集团将搭建统一的大数据共享和分析平台,对各类业务进行前瞻性预测及分析,为集团各层次用户提供统一的决策分析支持,提升数据共享与流转能力采购管理系统查看职能部门的查看职能部门的业务经营情况业务经营情况大数据分析平台建设预期收益2.加强业务协作实现分散在供应链金融、人人贷、保理等各个业务系统中的数据在数据平台中的集中和整合,建立单一的产品、客户等数据的企业级视图,有效促进业务的集成和协作,并为企业级分析、交叉销售提供基础3.促进业务创新金融集团业务人员可以基于明细、可信的数据,进行多维分析和数据挖掘,为金融业务创新(客户服务创新、产品创新
6、等)创造了有利条件4.提升建设效率通过数据平台对数据进行集中,为管理分析、挖掘预测类等系统提供一致的数据基础,改变现有系统数据来源多、数据处理复杂的现状,实现应用系统建设模式的转变,提升相关IT系统的建设和运行效率5.改善数据质量从中长期看,数据仓库对金融集团分散在各个业务系统中的数据整合、清洗,有助于企业整体数据质量的改善,提高的数据的实用性通过数据平台实现数据集中,确保金融集团各级部门均可在保证数据隐私和安全的前提下使用数据,充分发挥数据作为企业重要资产的业务价值1.实现数据共享议程大数据分析平台综述1 1大数据分析平台总体架构大数据分析平台总体架构2 2大数据分析平台演进路线3 3大数据
7、分析平台一期实施重点4 4附录:数据质量管理平台5 5大数据分析平台总体架构历史数据查询数据交换平台应用集市数据区商城零售供应链金融人人贷系统基金系统系统企业内外部半结构化、非结构化数据大数据交换组件数据库数据交换组件数据区数据交换组件数据计算层大数据区沙盘演练数据区数据应用层实时数据区客户主题协议主题产品主题业务沙盘演练数据增值产品 零售数据供应链数据增值产品数据区主题数据区 用户访问层客户汇总账户汇总机构汇总 社交媒体移动互联用户评价访问日志处理后大数据待处理大数据流程调度监控告警数据标准数据质量元数据数据安全流程调度平台数据管控平台流程调度层数据管控层数据产生层数据交换层实时数据查询客户
8、管理财务管理外部用户贴源数据区内部管理分析内部用户历史归档数据区IT人员风险管理大数据分析平台总体架构数据产生层l内部业务系统产生的结构化数据v商城日常零售业务处理过程中产生的结构化数据,存储在关系型数据库中,如:供应商信息、采购信息、商品信息、销售流水v金融集团日常业务处理过程中产生的结构化数据,存储在关系型数据库中,如:客户信息、账户信息、金融产品信息、交易流水l企业内部非结构化数据v日常业务处理过程中产生的非结构化数据,存储形式多样,主要包括用户访问日志、用户投诉、用户点评l企业外部数据v企业外部数据以非结构化为主,主要包括国家政策法规、论坛等互联网信息、地理位置等移动信息、微博等社交媒
9、体信息 源数据内容l在本次项目实施中将采用以增量为主、全量为辅结合的方式获取源数据l商城和金融集团业务系统的数据v增量数据识别、获取由云数据推送平台负责,云数据推送平台采用云数据推送平台采用分析、对比源系统日志方式实现v对于无法通过上述方式获取增量的源系统数据对于无法通过上述方式获取增量的源系统数据,则采用某一个时间范围内的全部数据作为增量v初始数据加载均采用全量模式源数据增量大数据分析平台总体架构数据交换层数据交换层设计目标数据交换层设计目标传输组件是根据数据源存储的不同分类而设计的,本质是通过分析数据存储结构和数据存储库的特点来针对性的设计工具,以追求卓越的性能保证数据在平台内高速流转保证
10、数据交换过程中不失真保证数据交换过程中不丢失保证数据交换过程安全可靠数据区数据交换组件数据库数据交换组件大数据交换组件金融集团系统金融集团系统数据服务层外部外部大数大数据据商城系统商城系统Hadoop元数据云数据推送平台云数据推送平台数据平台导入临时区数据平台导出临时区NAS 存储ETL程序区大数据分析平台总体架构数据交换层NAS存储HadoopHadoop集群元集群元数据区数据区数据平台数据平台ETLETL数据数据处理程序区处理程序区数据平台临时数数据平台临时数据区据区存储数据平台各个存储数据平台各个HadoopHadoop集群的元数据信息,如:集群的元数据信息,如:HDFSHDFS文件文件
11、系统元数据系统元数据集团数据交换平台每日获取运输局推送平台提供的业务系统变集团数据交换平台每日获取运输局推送平台提供的业务系统变化数据,暂存在化数据,暂存在NASNAS临时数据区临时数据区金融数据平台加工计算结果返回给业务系统,暂存在金融数据平台加工计算结果返回给业务系统,暂存在NASNAS临时临时数据区数据区数据平台数据平台ETLETL加工处理程序(数据压缩、数据加载、各数据数据加工处理程序(数据压缩、数据加载、各数据数据处理等)统一存储在处理等)统一存储在NASNAS集群指定目录,各接口服务器通过文件集群指定目录,各接口服务器通过文件系统系统LinkLink建立映射建立映射大数据分析平台总
12、体架构数据交换层大数据交换组件l企业内部非结构化、半结构化数据,如:音频、视频、邮件、Office文档、抵押品扫描件等l企业外部非结构化、半结构化数据,如:微博、贴吧、论坛、用户点击流、用户移动位置等l批量采集:大数据源以SFTP协议批量传输数据文件文件l在线访问:开发Java或C应用,调用大据源API,或以网络平台爬虫方式抓取源系统非结构化、半结构化数据l组件以实时和批量两种模式实现下列功能:v数据采集v数据传输到数据交换平台(接口服务器)NAS指定目录v存储数据到数据平台大数据区指定HDFS目录l定时抽取用户访问日志,加载到数据平台大数据区HDFS指定目录,MR程序加工处理l开发网络爬虫程
13、序,扫描用户微博,抓取用户微博内容,社交圈信息,存入大数据区处理对象实现技术实现功能应用场景大数据分析平台总体架构数据交换层数据库数据交换组件l企业内部业务系统产生的结构化数据,包括两大来源:v商城零售业务数据,数据存储在Oracle、SQLServer、MySQL和MongoDB四类数据库v金融集团互联网金融业务数据,数据存储在MySQL数据库lPerl程序v数据采集,调用Perl文件模块相关函数,轮询指定目录,获取数据文件v数据核查,Perl执行文件级数据质量检查v数据加载,调用Hive Load数据命令,加载到数据平台临时数据区的Hive Tablel组件以实时和批量模式实现下列功能:v
14、数据采集,轮询NAS集群指定目录,获取数据文件(LZO压缩)v数据核查,对数据文件进行质量校验v数据加载,加载数据到临时数据区l云数据推送平台连接供应链金融系统数据库,分析供应链金融MySQL数据库日志,识别增量数据,存储到金融平台NAS存储的指定目录,金融平台加载数据文件到数据平台临时区Hive表处理对象实现技术实现功能应用场景大数据分析平台总体架构数据交换层数据区数据交换组件l数据平台计算层各数据区v贴源数据区v主题数据区v集市数据区v沙盘数据区v大数据区v归档数据区lSqoop实现集市数据区与数据平台其他Hadoop数据区的数据交换lHadoop 命令、Hive外部表、MR程序实现数据平
15、台Hadoop数据区间的数据交换l组件以批量方式实现下列数据交换功能:v贴源数据区和主题数据贴源数据区和主题数据区到集市数据区区到集市数据区v大数据区到主题数据区大数据区到主题数据区和集市数据区和集市数据区v主题数据区、贴源数据主题数据区、贴源数据区、集市数据区到沙盘区、集市数据区到沙盘数据区数据区v各个数据区数据归档l数据集市的数据按照据生命周期规划,统一将过期数据归档到历史数据归档区处理对象实现技术实现功能应用场景大数据分析平台总体架构流程调度层批量处理流程l批量数据处理由流程调度层部署的自定义开发WorkFlow组件调度运行l整个流程主要完成如下工作:1.获取业务系统结构化数据,存入临时
16、数据区2.获取企业内外部非结构化数据,并进行结构化处理,存入主题或集市数据区3.按照贴源数据模型整合数据(标准化、数据更新/追加)4.按照主题数据模型整合数据并生成汇总5.数据加工计算后,结果交付到数据集市,支持分析类应用大数据分析平台总体架构流程调度层实时数据处理流程l实时数据处理强调的是实时或准实时获取并处理数据,通常采取消息队列等技术构建“数据流”l整个处理流程由流程调度层部署的自定义开发WorkFlow组件调度运行l整个流程主要完成如下工作:1.通过数据库数据交换组件获取增量数据,加载到实时数据区2.通过大数据交换组件获取非结构化数据,并利用Storm处理数据,加载到实时数据区3.针对
17、实时数据区数据执行标准化处理和贴源整合大数据分析平台总体架构流程调度层归档数据处理流程l数据归档的对象包括业务系统数据文件、贴源数据区数据、主题数据区数据、大数据区数据和集市数据区数据l数据按照生命周期规划存储到归档区Hadoop集群,归档后原数据区删除此数据l整个处理流程由流程调度层部署的自定义开发WorkFlow组件调度运行l整个流程主要完成如下工作:1.数据文件通过HDFS命令行copyfromlocal进行归档2.贴源、主题和大数据区通过HDFS命令行distcp或自定义开发的MR程序执行归档3.集市数据区通过Sqoop或数据库提供的Hadoop集成技术(如:外部表)执行归档大数据分析
18、平台总体架构数据存储层l业务系统前日增量数据业务系统前日增量数据l缓存数据,支持后续缓存数据,支持后续ELT数据处理数据处理数据内容主要用途数据模型保留周期用户访问模式工作负载平台要求l贴源数据模型l保存最近7天数据l贴源数据区和主题数据区批量作业访问贴源数据区和主题数据区批量作业访问l无最终用户访问无最终用户访问lI/O敏感,连续小批量的数据抽取和加载敏感,连续小批量的数据抽取和加载l少量量数据使用少量量数据使用Hive的的Load命令,大量数据使用命令,大量数据使用MR程序程序l与主题区/贴源区/集市区构成一个Hadoop集群(Hive)l无单点故障,无单点故障,724小时+非工作日有限停
19、机l主题数据区、集市数据区和沙盘演练数据区批量作业访问主题数据区、集市数据区和沙盘演练数据区批量作业访问l无最终用户访问无最终用户访问lI/O敏感,日终批量敏感,日终批量ETLl以以ELT形式通过形式通过Hive SQL执行执行l与主题区与主题区/贴源区贴源区/集市区构成一个集市区构成一个Hadoop集群(集群(Hive)l无单点故障,无单点故障,724小时小时+非工作日有限停机非工作日有限停机l贴源数据模型贴源数据模型l不保存历史不保存历史l业务系统前日快照数据和一段时间的流水数据业务系统前日快照数据和一段时间的流水数据l数据标准化,为后续主题模型、集市和沙盘演练提供数据数据标准化,为后续主
20、题模型、集市和沙盘演练提供数据临时数据区贴源数据区大数据分析平台总体架构数据存储层(续)l企业内外部非结构化、半结构化数据l采集并存储数据,进行结构化处理,最终得到结构化数据数据内容主要用途数据模型保留周期用户访问模式工作负载平台要求l数据按照HDFS文件存储l建议保留1年l集市区/沙盘区/增值产品区/主题区/归档区批量作业访问l少量高级业务人员进行大数据分析lMapReduce 分布式计算,半/非结构化数据的结构化处理(包括文本检索、语义分词、图像识别、音频识别等)l与主题区/贴源区构成一个Hadoop集群(HDFS)l无单点故障,无单点故障,724小时+非工作日有限停机l集市区/沙盘区/增
21、值产品区增值产品区/主题区/高时效区批量作业访问l业务人员执行历史数据查询lMapReduce分布式计算,HDFS命令实现Hadoop集群内归档,Sqoop实现数据库归档,通过Hive提供历史查询l独立的独立的Hadoop集群(集群(HDFS+Hive)l无单点故障,无单点故障,724小时+非工作日有限停机l数据按照HDFS文件存储l数据文件按照数据区划分目录,建议保留7年l其他各数据区历史数据l按数据生命周期规划归档平台过期数据,支撑历史数据查询大数据区历史归档数据区大数据分析平台总体架构数据存储层(续)l业务系统历史明细数据l打破业务条线整合数据数据内容主要用途数据模型保留周期用户访问模式
22、工作负载可用性要求l第三范式模型l保留长期历史,需要根据主题细化l主题区/集市区/沙盘区/增值产品区/归档区批量作业访问l少量高级业务人员进行灵活查询、挖掘预测lI/O敏感,日终批量ETL(合并、拉链、关联、汇总等等)l以ELT形式通过Hive SQL执行,复杂处理使用MR定制UDFl与大数据区与大数据区/贴源区构成一个贴源区构成一个Hadoop集群(集群(Hive)l无单点故障,无单点故障,724小时+非工作日有限停机l集市区集市区/沙盘区沙盘区/增值产品区增值产品区/归档区批量作业访问归档区批量作业访问l少量高级业务人员进行灵活查询、挖掘预测少量高级业务人员进行灵活查询、挖掘预测lI/O敏
23、感,日终批量敏感,日终批量ETL(连接、聚合、汇总等等)(连接、聚合、汇总等等)l以以ELT形式通过形式通过Hive SQL执行,复杂处理使用执行,复杂处理使用MR定制定制UDFl与大数据区与大数据区/贴源区构成一个贴源区构成一个Hadoop集群(集群(Hive)l无单点故障,无单点故障,724小时+非工作日有限停机l逆范式宽表逆范式宽表l依赖于集市数据需求依赖于集市数据需求l对主题数据预加工后的结果数据对主题数据预加工后的结果数据l针对应用需求进行数据预连接、预汇总,为集市提供数据针对应用需求进行数据预连接、预汇总,为集市提供数据主题数据区明细主题数据区汇总大数据分析平台总体架构数据存储层(
24、续)l按沙盘演练需求,准备的明细或汇总业务数据l为数据科学家的挖掘预测操作提供数据服务数据内容主要用途数据模型保留周期用户访问模式工作负载可用性要求l模型依赖于沙盘演练需求l在整个沙盘演练周期内保留l集市区/沙盘区/归档区批量作业访问l少量高级业务人员进行灵活查询、挖掘预测lI/O敏感,终批量ETL(合并、拉链、关联、汇总等等)l以ELT形式通过Hive SQL执行,复杂处理使用MR定制UDFl独立的Hadoop集群(HDFS)l无单点故障,无单点故障,724小时+非工作日有限停机l沙盘区/归档区批量作业访问l决策人员、管理人员、业务人员访问lI/O敏感型,BI工具提交的报表、查询、分析SQL
25、命令和日终批量ETL(汇总、聚集等操作,以ELT形式通过SQL执行)l基于开放平台的完全无共享 MPP 数据库集群数据库集群+内存数据库内存数据库l无单点故障,无单点故障,724小时+非工作日有限停机l维度数据模型l依赖业务需求l面向企业内部管理分析类应用需求的汇总数据l为客户、运营等管理分析主题和数据增值产品提供数据服务沙盘演练数据区应用集市数据区大数据分析平台总体架构数据存储层(续)l根据外部用户的数据使用需求数据平台加工计算的结果数据l为部署在数据平台上的企业内外部增值产品提供数据支持数据内容主要用途数据模型保留周期用户访问模式工作负载可用性要求l应用模型,依赖于用户业务需求l依赖于用户
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 金融 数据 分析 平台 总体 架构 v102013082782
限制150内