2023/02/13 18:29 科技云报道
可观测性不是一个新鲜的名词,但是近年来随着云原生技术的发展,在带来效率、可用性提升的同时也增加了复杂度,而可观测性成为降低这种复杂度的唯一手段,因此被推到了前所未有的重要地位。
Gartner将应用可观测性(Applied Observability)列为“2023年十大战略技术趋势”之一,并指出,到2026年,70%成功实现可观测性的企业机构,将能够降低决策延迟,帮助目标业务或IT流程建立竞争优势。
那么,云原生时代的可观测性有哪些新挑战和新趋势?
云原生带来可观测性变革
可观测性,是指通过分析系统的Metrics(指标)、Traces(链路)、Logs(日志)等数据,构建完整的观测模型,从而实现故障诊断、根因分析和快速恢复。
对此,谷歌有一个很简单的表述,快速排障(troubleshooting),即可观测性的核心价值。
尽管近年来可观测性颇有一点“网红”气质,但可观测性也是由传统监控演进而来的。
传统监控是面向运维视角的,从系统外部视角去观察系统的运行状态,应用规模普遍较小且服务之间没有互相依赖,更多是通过阈值来监控单体主机的日志和性能指标。
随着云原生技术的发展,基于容器和微服务化的应用规模更加庞大,服务之间依赖呈现为网状结构,复杂的云上环境以及分布式系统的复杂性、动态性,使得故障定界、调用追踪非常不明朗。
例如,虽然很多容器化应用上线有着开箱即用、快速发布的这些好处,但也有很多的网络流量抓取不到。
在这种情况下,其实很难通过传统的方式进行网络流量抓包分析,云环境网络流量监控“黑盒”的短板也逐步暴露了出来。
以往的日志、性能指标监控能力,就需要补充面向云网络的流量日志与性能指标,同时结合动态的全链路追踪能力,实现多维数据的关联分析,提供整体应用的可靠性保障。
因此,云原生可观测性被提出来了,要求从系统内部出发,基于“白盒化”的思路去监测系统内部的运行情况,不仅发现问题,更对于问题现象背后本质给出明晰解释。
而可观测性背后的指标、日志、事件、链路数据,以及诊断工具的结合使用,就为事前预防、事中处理、事后复盘提供了重要决策依据。
可以说,可观测性是基础设施自动化的基石,优秀的可观测性是确保云原生红利高效释放的前提条件。
可观测性的三大维度
云原生计算基金会CNCF将可观测性分解为三个更具体方向进行研究,分别是:事件日志、链路追踪和聚合度量。
日志(Logging)
日志的职责是记录离散事件,通过这些记录事后分析出程序的行为,譬如曾经调用过什么方法,曾经操作过哪些数据等等。
输出日志的确很容易,但收集和分析日志却可能会很复杂。面对成千上万的集群节点,迅速滚动的事件信息,数以TB计算的文本,传输与归集都并不简单。
目前,事件日志可观测产品已经是一片红海。
日志管理方案大都包含日志收集、日志聚合、日志存储与分析几个模块,具体过程是日志收集工具与应用程序容器一起运行,并直接从应用程序收集消息,然后将消息转发到中央日志存储以进行汇总和分析。
常见的日志管理工具包括ELK Stack、Fluentd、Loki等。其中,Elastic Stack日志解决方案几乎覆盖了日志管理的全流程。
度量(Metrics)
度量是指对系统中某一类信息的统计聚合,主要目的是监控和预警,如某些度量指标达到风险阈值时触发事件,以便自动处理或者提醒管理员介入。
度量常用的工具包括:Zabbix、Nagios、Prometheus,及相关高可用部署方案如Prometheus-operator、Thanos。
追踪(Tracing)
追踪的主要目的是排查故障如:分析调用链的哪一部分、哪个方法出现错误或阻塞,输入输出是否符合预期等等。
云原生时代,追踪不只局限于调用栈了,一个外部请求需要内部若干服务的联动响应,这时候完整的调用轨迹将跨越多个服务,同时包括服务间的网络传输信息与各个服务内部的调用堆栈信息。因此,分布式系统中的追踪常被称为“全链路追踪”。
同时,追踪方面的情况与日志、度量也有所不同。
追踪是与具体网络协议、程序语言密切相关的,各个服务之间是使用HTTP还是gRPC来进行通信,会直接影响追踪的实现,各个服务是使用Java、Golang还是Node.js来编写,也会直接影响到进程内调用栈的追踪方式。
这决定了追踪工具本身有较强的侵入性,通常是以插件式的探针来实现,也决定了追踪领域很难出现一家独大的情况,通常要有多种产品来针对不同的语言和网络。
近年来各种链路追踪产品层出不穷,市面上主流的工具既有像Datadog这样的一揽子商业方案,也有AWS X-Ray和Google Stackdriver Trace这样的云计算厂商产品,还有像SkyWalking、Zipkin、Jaeger这样来自开源社区的优秀产品。
总的来说,日志、度量、追踪三者打通,最大的价值是能做到全链路错误寻根,即从发现请求Metric指标异常,通过指标关联分析,并逐层下钻到明细Trace追踪和具体Error Log,全流程自动化从宏观到明细的错误发现和根因定位。
可观测性将走向何方?
不难发现,可观测性问题相对复杂,没有开箱即用的最佳方案。
为了应对云原生场景下复杂的可观测性问题,各大厂商采用了不同的策略。
有的采用多种产品组合的方式,针对不同场景,为客户提供不同的解决方案,比如AWS有CloudWatch、AMP、AMG等产品组合,阿里云有ARMS、链路追踪、日志服务SLS等;
有的厂商则提供了统一的解决方案,比如Azure monitor,Vmware Tanzu Wavefront,华为云CIE等。
随着各大厂商和开源项目的发展和推进,在可预见的未来,可观测领域正在呈现新的趋势:
趋势一:形成可观测性行业标准
首先是指标,Prometheus作为云原生时代指标数据标准已经形成共识。
链路标准也随着OpenTracing和OpenTelemetry的推行而逐渐占据主流。
OpenTelemetry作为一套由CNCF主导的云原生可观测性的标准协议,目前已经是海外企业在该领域的实践标准。
反观国内,虽未形成类似的标准,却也涌现了诸如 CAT 和 SkyWalking 等一系列国产开源的 APM 系统。得益于对业务代码无侵入,性能表现优秀,社区活跃,中文文档齐全等众多优秀特性,SkyWalking在国内异常火爆。
在日志领域,虽然其数据结构化程度较低难以形成数据标准,但采集存储分析侧涌现出Fluentd、Loki等开源新秀;另一方面,Grafana作为可观测数据展示标准也愈加明朗。
趋势二:构建以应用为中心的观测视角
可观测性比较好的观测视角是应用视角,以应用为单位关联指标、链路与日志,利用逐渐成熟的eBPF探针技术快速实现全局应用可观测,无侵入应用探针为主,OpenTelemetry为辅实现代码级可观测能力。
趋势三:聚焦业务成败
在“业务至上”的时代,技术工程师们保障的核心其实并不是这套IT系统或软件,核心其实是业务。
一笔业务可能会涉及到多个微服务系统,需要追踪到整个API关联的订单、用户甚至具体到哪一笔交易,这也是可观测性和业务结合的一个重要发展趋势。
趋势四:加大IT投入
“可观测性”被定义为是一个降本增效的好工具,这让许多开发者认为安装了可观测性平台,就可以降低成本、为业务创造价值。
事实上,可观测性工具从来不是一个“便宜”的东西,可观测性平台除了基本的工具投入,还需要有一套完整的数据存储方案,企业自研一套优秀的可观测性解决方案投入成本并不低。
以美国企业的可观测性相关投入为例,其占企业整体IT支出的5%-10%。
因此,可观测性产品的“降本增效”不是短时间内就可以显现出来的,而是通过长时间的应用产生价值,企业将做好加大投入的准备。
趋势五:可观测性与安全融合
安全和可观测性的合并,已在全球范围内形成一种趋势。
摩根士丹利《安全分析和可观测性》一文中提到,在国外,以DataDog为代表的公司在上市之后发布的新增功能中有70%都是安全相关的。
这其中的道理非常简单,可观测性是通过检查其输出来衡量系统内部状态的能力,它收集了系统的方方面面,通过这些数据可以分析出系统的故障,自然也就能够分析出系统有没有被入侵。
比如DataDog就提供了通过分析当前访问请求,区分哪些可能是黑客在嗅探,或者准备未来做DDoS攻击的接口的功能。
也就是说,采集的数据在安全方面也能够发挥作用,而不像传统安全工具那样,需要针对安全场景再进行一次数据采集。
所以,安全和可观测性的合并在全球范围内已经成为一种趋势。
针对攻击现场的追踪,比如国内的态势感知、SIEM这些安全产品都选择了和可观测性进行融合。
结语
总体来说,真正的可观测性平台应该是,能够将各种各样对于系统的形态、实时的状态进行有结构性的收集并提供一系列的观察、测量手段的平台。
就像传感器一样,能够让开发者们的开发、测试、运维过程变的更容易,能够即时了解系统的运行状态,而并不是简简单单的“监控”。
【关于科技云报道】
专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。
榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn(把#换成@)。