企业微信万亿级日志检索系统.docx

上传人：安***

文档编号：73266953

上传时间：2023-02-17

格式：DOCX

页数：13

大小：21.16KB

( 4.5 )

《企业微信万亿级日志检索系统.docx》由会员分享，可在线阅读，更多相关《企业微信万亿级日志检索系统.docx（13页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、企业微信万亿级日志检索系统datonli腾讯WXG后台开发工程师背景开发在定位问题时需要查找日志但企业微信业务模块日志存储在本机磁盘这会造成以下问题日志查找效率低下一次用户恳求涉及近十个模块几十台机器查找日志需要登录机器grep日志文件。这一经过通常需要消耗10分钟以上非常低效日志保存时间短单机磁盘存储容量有限为保存最新日志清理脚本周期清理旧日志文件腾出磁盘空间比方现网一核心存储7天日志占用了90%的磁盘空间7天前日志都会被清理用户投诉因日志被清理而得不到解决日志缺失固然现网保存7天最新日志但是由于某些模块恳求量大或者日志打印不合理我们也会限制一个小时日志打印量超过阈值后不再保存比方现网一核心

2、存储前10分钟打了10G日志到达阈值后50分钟日志不再保存了用户投诉因日志缺失无法得到解决。我们祈望有这样一个日志系统存储全量日志由于ToB业务的特殊性至少需要保存30天的全量日志数PB日志量日志达数万亿条方便回查日志定位问题日志快速定位根据模块时间段关键字或者用户恳求信息快速定位日志实时性日志峰值达数亿条每秒需要做到秒级入库、秒级可查支持日志模糊匹配以及统计单机日志查询常用到模糊匹配和awk/uniq/sort等复杂统计在新日志系统同样祈望可以支持支持模块级全量日志查询日常运营中有些用户投诉的问题并不确定详细发生时间需要对模块进展全量日志日志量达TB级别查询。业界方案比照公司内外有很多日志系

3、统方案根据是否对日志做全文检索可以分为两类全文检索的日志系统对日志内容切分词以及建倒排通过查询关键词的倒排取交集支持模糊匹配这类系统一般入库资源消耗较多也不支持日志统计典型实现有ELK、Hermes和腾讯云日志效劳(CloudLogService,CLS)等系统局部字段检索的日志系统只对局部字段建索引支持特定字段的快速检索入库资源消耗较低但是这类系统对模糊匹配未能很好支持也不支持日志统计不支持模块级全量日志查询如wxlog、LogTrace等系统。我们新设计的检索系统在资源消耗较小的前提下很好知足背景所提的所有检索需求。方案设计的考虑保存时间短以及日志缺失的问题单机存储空间的限制导致日志丧失日

4、志也没法长时间保存怎样打破单机存储空间限制呢嗯是的使用分布式文件系统交换单机文件系统就可以了在可程度扩展的分布式文件系统支撑下存储空间无限大日志不再因存储空间而丧失了。日志查找效率低下问题日志查找效率低下其根源是日志散落到多台机器需要登录到机器做日志grep。引入了分布式文件系统存储全网日志后我们看到的仍然是一个一个不相关的日志文件快速定位日志仍然困难。怎样进步日志定位的效率呢索引就像是利用索引提升数据库表查询效率一样我们对日志数据建立索引快速定位到所需日志。那么需要构建如何的索引呢先看看面临的两种问题定位场景开发收到模块告警通过告警信息结合代码找到关键字使用关键字查找模块告警时间段内的日志根

5、据用户投诉找到用户恳求信息使用用户恳求信息查找所有关联模块的日志。从以上场景看出我们通常根据模块时间段关键字或用户恳求信息查找日志。所以对模块、时间、用户恳求信息建索引提升日志查找效率。入库资源消耗问题为了支持模糊查询业界方案一般都会对日志内容分词建索引这会消耗大量资源。日志查询系统有两个特点每天只有数百次查询恳求日志存储模块分布式文件系统IO密集、CPU利用率低。为了支持用户模糊查询恳求入库时不对日志内容分词建索引。用户查询时日志存储模块使用关键字对日志内容正那么匹配过滤利用本机空闲CPU。这样既解决了入库资源消耗高的问题又解决了存储机CPU低利用率的问题。面临的挑战我们通过分布式文件系统以

6、及索引解决了目前的问题同时也带来了新的挑战高性能目前企业微信日志量月级数PB日志数万亿条天级数百TB面对如此海量日志怎样做到入库以及查询的高性能可靠性引入了分布式文件系统和索引带来更大的复杂性怎样保证整个日志系统可靠性支持灵敏多变的用户查询需求通过调研发现用户主要有以下4种日志查询使用场景a)一次用户恳求关联的所有模块日志查询b)模块一段时间内日志模糊查询c)模块全量日志模糊查询d)查询日志统计如awk/uniq/sort指令等。怎样支持如此灵敏多变的用户查询需求名词解释在介绍系统前先对使用的名词进展解释callid唯一标识一次用户恳求每条日志中都会携带callid信息模糊查询根据用户输入模块

7、、时间段以及关键字查询日志全链路查询根据callid查询一次用户恳求所有关联的模块日志。系统架构企业微信日志检索系统主要分为6个模块LogAgent以及业务模块同机部署对模块内日志进展聚集数据批量写分布式文件系统callid索引批量发送到LogMergeSvr聚集LogMergeSvr对一段时间内的callid索引进展模块间聚集批量写分布式文件系统存储模块(分布式文件系统)存储原始日志数据、时间索引以及callid索引数据LogIdxSvr对callid索引进展全网聚合底层存储用的是RocksdbWebSvr接收用户网页恳求并发查询QuerySvr。QuerySvr查询执行模块支持全链路查询、

8、模糊查询、awk统计等。接下来分别阐述系统设计以及实现中面临的挑战点和解决方法。怎样实现系统高性能日志入库高性能目前企业微信全网日志入库峰值qps数亿条每秒而分布式文件系统数据节点仅仅20台单台12块SATA盘单盘IOPS约100左右我们怎样使用少量数据节点支撑如此顶峰值的日志秒级入库呢数据入库高性能在模糊查询场景下用户使用模块/机器时间段关键字进展查询。为提升数据入库性能我们以每台机器的IP作为分布式文件系统的目录机器上模块打印的日志写入小时粒度的日志文件这样不同机器写入自己独占的日志数据文件互相间数据写入无竞争入库性能最正确。与此同时目录构造就相当于一个快速区分不同模块/机器的索引这也能提

9、升日志查询效率。为了进一步提升数据入库性能LogAgent使用缓冲队列缓存日志数据累积8MB数据后批量顺序写入日志文件中写qps降低为本来的4万分之一。同时为了快速查找日志数据对8MB日志数据的时间戳采样批量写入同目录下的时间索引文件中。callid索引入库高性能同一callid索引散落在不同模块不同机器为了全链路查询需要对数亿条/秒的callid索引做秒级聚合以支持秒级入库、秒级可查这无疑是一个技术难题。为解析决这一难题我们通过三重聚合减少callid索引写入压力最终到达qps减少到千万分之一、一次IO读取callid所有日志位置的效果模块内聚合LogAgent聚合模块内callid索引批量

10、写入LogMergeSvrqps约减少到万分之一模块间聚合LogMergeSvr聚合模块间一段时间内的callid索引批量写分布式文件系统qps约减少到千分之一全网聚合callid索引文件不利于高效读取LogIdxSvr利用Rocksdb的Merge聚合全网的callid索引一次IO可读取callid所有日志位置。日志查询高性能增加索引提升查询性能开发通常根据模块、时间段、callid这3个维度查询日志为了加快查询性能也对这3个维度分别增加索引模块一个模块包含假设干机器每台机器在分布式文件系统中拥有独占的日志目录用IP区分用于保存机器小时粒度日志文件。通过模块找到所有机器IP后可快速找到该模块

11、的日志在分布式文件系统中的日志目录。时间段日志数据保存在机器目录的小时粒度文件中通过对日志时间采样保存为相应时间索引文件。当按照时间段查找日志时可根据时间索引文件快速找到该时间段的日志位置范围。callid解析日志建立callid到日志位置的索引散落在多个模块的callid索引通过LogAgent、LogMergeSvr和LogIdxSvr三重聚合后最终存储在LogIdxSvr的Rocksdb中。全链路日志查询可通过读取一次Rocksdb获取所有相关日志位置快速读取到所需日志。模糊查询高性能原始版本并发检索WebSvr接收用户模糊查询恳求模块时间段关键字根据模块获取机器列表后按机器列表并发恳求

12、到多台QuerySvr执行机器粒度日志查询通过机器IP找到机器日志目录根据时间段拉取时间索引文件确定日志数据范围并发拉取日志到本机用关键字做模糊匹配。最终将匹配后的日志返回给WebSvr聚合展示给用户。通过并发检索的优化手段模糊查询一个模块一小时日志12台机器7.95GB日志量耗时从1分钟降到5.6秒。优化版本模糊匹配下沉分布式文件系统在系统压测时我们发现QuerySvr带宽以及cpu存在性能瓶颈原因是QuerySvr读取大量未模糊匹配的日志数据打满了网络带宽并且在QuerySvr做模糊匹配也会消耗大量cpu资源。我们需要进展性能优化。考虑到分布式文件系统是重IO操作cpu利用率很低将模糊匹配

13、逻辑下沉到分布式文件系统这样既解决了QuerySvr带宽以及cpu性能瓶颈问题又充分利用了文件系统的cpu防止资源浪费。通过模糊匹配下沉的优化手段模糊查询一个模块一小时日志12台机器7.95GB日志量耗时从5.6秒降到2.5秒。全链路查询高性能全链路查询以及模糊查询类似同样利用了并发提升查询性能稍有不同的是全链路查询根据callid读取LogIdxSvr确定日志位置列表按照位置列表并发读取日志数据聚合后将日志返回给用户。怎样保证系统可靠性我们通过引入了分布式文件系统以及索引效劳解决了日志丧失、保存时间短以及快速定位问题但系统复杂性导致的可靠性问题是我们面临的第二大挑战。数据可靠性保证日志数据缓

14、冲队列分享内存本机磁盘文件LogAgent负责将日志数据以及时间索引写入分布式文件系统当分布式文件系统抖动时为了不丢弃待写日志数据LogAgent使用缓冲队列分享内存本机磁盘文件缓存日志数据待抖动恢复后读出缓存数据写入文件系统。索引可靠性保证效劳抖动LogIdxSvr使用Rocksdb作为底层存储聚合全网callid索引但是Rocksdb在高并发写入时容易出现写入抖动进而导致索引丧失为了保证callid索引可靠性LogMergeSvr先将callid索引写入分布式文件系统保存LogIdxSvr从分布式文件系统拉分布式文件系统当做queue使用起到削峰填谷作用保证callid索引可靠性。机器坏盘

15、LogIdxSvr出现坏盘会导致已聚合到本机的callid索引数据丧失新起的LogIdxSvr重新拉取分布式文件系统的callid索引文件可以重建Rocksdb的callid索引保证系统可靠性。怎样支持灵敏多变的用户查询恳求通过前面的设计目前可以根据模块时间段关键字或callid查找到日志了但是还不够用户往往还需要对日志做任意维度模糊匹配、日志统计如uniq/sort/awk等和模块级全量日志查询。支持任意维度模糊匹配如前所述通过在分布式文件系统实现模糊匹配逻辑系统支持对日志做任意维度模糊匹配的需求。通过比照选择性能最优的RE2正那么匹配库实现模糊匹配逻辑。支持awk/uniq/sort等统计

16、指令支持统计指令用户不仅需要对日志做模糊匹配还需要对匹配后的日志执行awk/uniq/sort等统计指令其中涉及到指令互相嵌套执行非常复杂难以调用相关库实现。我们通过子进程调用系统shell支持这一需求。QuerySvr从分布式文件系统拉取日志数据到本机后子进程shell调用用户传入统计指令处理日志数据最终结果返回给WebSvr。子进程处理超时父进程将kill掉子进程防止用户统计任务耗光QuerySvr资源。平安考虑由于用户指令可由用户自定义输入指令执行的平安问题需要重点考虑。通过两个方法确保执行指令的平安changeroot使用Linux的changeroot防止用户指令操作系统重要目录沙盒

17、限制使用Linux支持的沙盒隔离技术只允许执行特定指令。支持模块级全量日志查询异步任务模块级全量日志查询通常涉及TB级别日志量因为涉及的数据量过大查询耗时一般较长无法给用户提供实时返回我们通过提供异步任务功能支持这一需求。用户异步任务恳求通过WebSvr转发到QuerySvr为防止QuerySvr宕机导致异步任务丧失QuerySvr会将异步任务写入一致性锁效劳中存储空闲的QuerySvr会从一致性锁效劳抢锁抢锁成功后执行该异步任务。QuerySvr根据异步任务的模块信息读取机器列表按照机器列表并发读取匹配的日志数据按顺序写入本机磁盘中在查询完毕后更新一致性锁效劳状态存储机ip以及途径用户页面刷新会拉取到异步任务最新状态。最近热文阅读器性能优化实战视频号最新视频5月28-29日QECon全球软件质量效能大会欢送关注

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

14.8 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 企业万亿日志检索系统

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：企业微信万亿级日志检索系统.docx
链接地址：https://www.deliwenku.com/p-73266953.html