腾讯云EMR基于YARN针对云原生容器化的优化与实践.docx
《腾讯云EMR基于YARN针对云原生容器化的优化与实践.docx》由会员分享,可在线阅读,更多相关《腾讯云EMR基于YARN针对云原生容器化的优化与实践.docx(9页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、腾讯云EMR基于YARN针对云原生容器化的优化与实践11月30日,2021亚马逊云科技re:Invent全球大会,即将浩大开启!2021re:Invent十周年度十分活动,内容的饕餮盛宴,涵盖产品、行业、社区等专题!立即预约导语|传统HADOOP生态系统使用YARN管理/调度计算资源该系统般具有明显的资源使周期。实时计算集群资源消耗主要在天而数据报表型业务那么安排在离线计算集群中。离在线业务分开部署的首要问题就是资源使用率低消耗本钱。随着业务的增以及突发的报表计算需求为解析决为离线集群预留资源腾讯云EMR团队以及容器团队结合推出HadoopYarnonKubernetesPod以提容器资源使用
2、率降低资源本钱将闲时容器集群CPU使率提升数倍之多。本文主要介绍HADOOP资源调度器YARN在容器环境中的优化与理论。一、HadoopYarnonKubernetesPod混合部署形式HadoopYarnonKubernetesPod方案提供弹性扩缩容以及离在线混合部署两项功能。弹性扩缩容主要聚焦于怎样利云原生资源快速扩容资源以补充算力。离在线混合部署形式的目的是为了充分使用在线集群的空闲资源尽可能减少为离线集群预留空闲资源的频次。EMR弹性扩缩容模块yarn-autoscaler提供按负载以及按时间弹性伸缩两种扩缩容方式。对于按负载伸缩用户可以对不同指标设置阈值来触发扩缩容比方设置Yarn
3、队列中availablevcore、pendingvcore、availablemem、pendingmem。亦可以使用时间扩缩规那么按天、按周、按月等规那么指定触发。当弹性规那么被触发后离在线部署模块获取当前在线TKE集群中可以提供的闲置算力的规格及数量调用Kubernetesapi创立对应数量的资源ex-scheduler扩展调度器确保Pod被创立在剩余资源更多的节点上该POD负责启动YARN的效劳。通过该方案Yarn的NodeManager效劳可以快速部署到POD节点中。但也Yarn原生调度没有考虑异构资源由此引发了两个问题1.AM的POD被驱逐导致APP失败在node节点的资源紧缺的条
4、件下kubelet为了保证node节点的稳定性会触发主动驱逐pod的机制。假如该节点存在AM效劳那么整个Application就要被视为失败ResourceManager此时会重新分配AM。对于计算量很大的任务Application重跑的代价不可承受。2.Yarn原生非独占分区资源分享局限性Yarn的标签分区特性持独占分区Exclusive非独占分区Non-exclusive。独占分区Exclusive例如指定独占分区xYarn的container只会分配到该x分区。非独占分区Non-exclusive例如非独占分区xx分区的资源可以分享给default分区。只有当指定分区default时de
5、fault上运的Application可以使分区x的资源。但是在实际使场景中户要给各个业务部门分配各自的独占分区资源同时会划分出供各部门使用的default分区。default分区资源会比拟充足业务部门祈望可以使用自己的独占分区以及同时充分利用default分区资源独占分区资源以及default分区都不够用的时候才会触发弹性扩容往属于自己的独占分区中扩容资源。二、对Yarn改造带来的挑战对上述feature的开发除了需求技术本的难度。还需要考虑到尽可能降低用户存量集群稳定性的影响减少用户业务侧改造本钱。集群稳定性HadoopYarn作为大数据系统中的根底调度组件假如改动太多引发的故障几率就会增
6、大。同时引入的feature,必然需要晋级存量集群的HaoopYarn。晋级操作要做到对存量业务集群无感悟不能影响到当天的业务。业务侧使用本钱引入的新feature也必须符合原yarn的使用习惯方便业务侧用户理解同时降低业务侧对代码的改造。1.AM自主选择存储介质目前Yarn的社区没有考虑云上异构资源混合部署的特点。在线TKE集群中当资源紧张时会对容器进展驱逐。为了防止Appliction重新计算浪费资源的现象必须提供AM可以指定能否分配到POD类型资源。自主选择存储介质中使用配置化标识由NodeManager通过RPC上报能否将资源提供应AM使用ResourceManager通过上报信息决定
7、将Application的AM分配到稳定资源介质中。由NodeManager通过配置化上报信息的好处是显而易见的去集中化减少ResourceManager处理逻辑。否那么扩容资源时还需将资源信息通过RPC/配置流入到ResourceManager中。如无必要勿增实体对ResourceManager的改造应该轻量化。集群稳定性存量业务集群对Yarn晋级后需要重启NodeManager,只需要重启ResourceManager。Yare的高可用特性可保证晋级经过对业务无影响。无需重启NodeManager的原因是NM默认将本机资源视为可分配。简单易用用户可以通过配置由决定任务资源拥有分配AM的权利
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 腾讯 EMR 基于 YARN 针对 原生 容器 优化 实践
限制150内