手把手教你设计大数据流水线.docx
《手把手教你设计大数据流水线.docx》由会员分享,可在线阅读,更多相关《手把手教你设计大数据流水线.docx(3页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、手把手教你设计大数据流水线导读:本文介绍大数据流水线的标准工作流程,以及设计大数据架构流水线时需 要考虑的各种工具和流程。在数据架构中,数据流水线一般以数据为起点,以洞见为终点。如何从起点到终点,取决于一系列的因素。图1展示了一个数据架构下的数据流水线。延迟本钱图1大数据架构设计中的数据流水线如图1所示,大数据流水线的标准工作流程包括以下步骤:1)通过合适的工具收集数据(摄取)。2 )持久化存储数据。3)数据处理或分析。从存储中获取数据,对其进行操作,然后将处理后的数据再次存储。4 )数据被其他处理/分析工具使用,或者被同一工具再次处理,从数据中获得进一步的结果。5 )为了使结果对业务用户有用
2、,使用商业智能(BI)工具将结果可视化,或者将结果输入机器学习算法中进行预测。6)一旦将合理的结果呈现给用户,这就为他们提供了对数据的洞见,然后他们可以采用这些数据进行进一步的业务决策。你在流水线中部署的工具决定了获得结果的时间,也就是从数据被创立到能从中获得洞见之间的延迟。在考虑延迟的同时,设计数据架构的最正确方法是确定如何平衡吞吐量与本钱,因为更高的性能和随之而来的低延迟通常会导致更高的本钱。大数据处理流水线设计许多大数据架构所犯的关键性错误之一是,试图用一个工具包办数据流水线的多 个阶段的数据处理。用一个服务器机群来端到端地处理从数据存储、转换到数据 可视化的整个流水线可能是最简单,但它
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 手把手 设计 数据流 水线
限制150内