首页 > 资讯 > 评论

科技云报道：2023年，可观测性迎来哪些新趋势？

2023/02/13 18:29 科技云报道

　　可观测性不是一个新鲜的名词，但是近年来随着云原生技术的发展，在带来效率、可用性提升的同时也增加了复杂度，而可观测性成为降低这种复杂度的唯一手段，因此被推到了前所未有的重要地位。

　　Gartner将应用可观测性(Applied Observability)列为“2023年十大战略技术趋势”之一，并指出，到2026年，70%成功实现可观测性的企业机构，将能够降低决策延迟，帮助目标业务或IT流程建立竞争优势。

　　那么，云原生时代的可观测性有哪些新挑战和新趋势?

　　云原生带来可观测性变革

　　可观测性，是指通过分析系统的Metrics(指标)、Traces(链路)、Logs(日志)等数据，构建完整的观测模型，从而实现故障诊断、根因分析和快速恢复。

　　对此，谷歌有一个很简单的表述，快速排障(troubleshooting)，即可观测性的核心价值。

　　尽管近年来可观测性颇有一点“网红”气质，但可观测性也是由传统监控演进而来的。

　　传统监控是面向运维视角的，从系统外部视角去观察系统的运行状态，应用规模普遍较小且服务之间没有互相依赖，更多是通过阈值来监控单体主机的日志和性能指标。

　　随着云原生技术的发展，基于容器和微服务化的应用规模更加庞大，服务之间依赖呈现为网状结构，复杂的云上环境以及分布式系统的复杂性、动态性，使得故障定界、调用追踪非常不明朗。

　　例如，虽然很多容器化应用上线有着开箱即用、快速发布的这些好处，但也有很多的网络流量抓取不到。

　　在这种情况下，其实很难通过传统的方式进行网络流量抓包分析，云环境网络流量监控“黑盒”的短板也逐步暴露了出来。

　　以往的日志、性能指标监控能力，就需要补充面向云网络的流量日志与性能指标，同时结合动态的全链路追踪能力，实现多维数据的关联分析，提供整体应用的可靠性保障。

　　因此，云原生可观测性被提出来了，要求从系统内部出发，基于“白盒化”的思路去监测系统内部的运行情况，不仅发现问题，更对于问题现象背后本质给出明晰解释。

　　而可观测性背后的指标、日志、事件、链路数据，以及诊断工具的结合使用，就为事前预防、事中处理、事后复盘提供了重要决策依据。

　　可以说，可观测性是基础设施自动化的基石，优秀的可观测性是确保云原生红利高效释放的前提条件。

　　可观测性的三大维度

　　云原生计算基金会CNCF将可观测性分解为三个更具体方向进行研究，分别是：事件日志、链路追踪和聚合度量。

　　日志(Logging)

　　日志的职责是记录离散事件，通过这些记录事后分析出程序的行为，譬如曾经调用过什么方法，曾经操作过哪些数据等等。

　　输出日志的确很容易，但收集和分析日志却可能会很复杂。面对成千上万的集群节点，迅速滚动的事件信息，数以TB计算的文本，传输与归集都并不简单。

　　目前，事件日志可观测产品已经是一片红海。

　　日志管理方案大都包含日志收集、日志聚合、日志存储与分析几个模块，具体过程是日志收集工具与应用程序容器一起运行，并直接从应用程序收集消息，然后将消息转发到中央日志存储以进行汇总和分析。

　　常见的日志管理工具包括ELK Stack、Fluentd、Loki等。其中，Elastic Stack日志解决方案几乎覆盖了日志管理的全流程。

　　度量(Metrics)

　　度量是指对系统中某一类信息的统计聚合，主要目的是监控和预警，如某些度量指标达到风险阈值时触发事件，以便自动处理或者提醒管理员介入。

　　度量常用的工具包括：Zabbix、Nagios、Prometheus，及相关高可用部署方案如Prometheus-operator、Thanos。

　　追踪(Tracing)

　　追踪的主要目的是排查故障如：分析调用链的哪一部分、哪个方法出现错误或阻塞，输入输出是否符合预期等等。

　　云原生时代，追踪不只局限于调用栈了，一个外部请求需要内部若干服务的联动响应，这时候完整的调用轨迹将跨越多个服务，同时包括服务间的网络传输信息与各个服务内部的调用堆栈信息。因此，分布式系统中的追踪常被称为“全链路追踪”。

　　同时，追踪方面的情况与日志、度量也有所不同。

　　追踪是与具体网络协议、程序语言密切相关的，各个服务之间是使用HTTP还是gRPC来进行通信，会直接影响追踪的实现，各个服务是使用Java、Golang还是Node.js来编写，也会直接影响到进程内调用栈的追踪方式。

　　这决定了追踪工具本身有较强的侵入性，通常是以插件式的探针来实现，也决定了追踪领域很难出现一家独大的情况，通常要有多种产品来针对不同的语言和网络。

　　近年来各种链路追踪产品层出不穷，市面上主流的工具既有像Datadog这样的一揽子商业方案，也有AWS X-Ray和Google Stackdriver Trace这样的云计算厂商产品，还有像SkyWalking、Zipkin、Jaeger这样来自开源社区的优秀产品。

　　总的来说，日志、度量、追踪三者打通，最大的价值是能做到全链路错误寻根，即从发现请求Metric指标异常，通过指标关联分析，并逐层下钻到明细Trace追踪和具体Error Log，全流程自动化从宏观到明细的错误发现和根因定位。

　　可观测性将走向何方?

　　不难发现，可观测性问题相对复杂，没有开箱即用的最佳方案。

　　为了应对云原生场景下复杂的可观测性问题，各大厂商采用了不同的策略。

　　有的采用多种产品组合的方式，针对不同场景，为客户提供不同的解决方案，比如AWS有CloudWatch、AMP、AMG等产品组合，阿里云有ARMS、链路追踪、日志服务SLS等;

　　有的厂商则提供了统一的解决方案，比如Azure monitor,Vmware Tanzu Wavefront,华为云CIE等。

　　随着各大厂商和开源项目的发展和推进，在可预见的未来，可观测领域正在呈现新的趋势：

　　趋势一：形成可观测性行业标准

　　首先是指标，Prometheus作为云原生时代指标数据标准已经形成共识。

　　链路标准也随着OpenTracing和OpenTelemetry的推行而逐渐占据主流。

　　OpenTelemetry作为一套由CNCF主导的云原生可观测性的标准协议，目前已经是海外企业在该领域的实践标准。

　　反观国内，虽未形成类似的标准，却也涌现了诸如 CAT 和 SkyWalking 等一系列国产开源的 APM 系统。得益于对业务代码无侵入，性能表现优秀，社区活跃，中文文档齐全等众多优秀特性，SkyWalking在国内异常火爆。

　　在日志领域，虽然其数据结构化程度较低难以形成数据标准，但采集存储分析侧涌现出Fluentd、Loki等开源新秀;另一方面，Grafana作为可观测数据展示标准也愈加明朗。

　　趋势二：构建以应用为中心的观测视角

　　可观测性比较好的观测视角是应用视角，以应用为单位关联指标、链路与日志，利用逐渐成熟的eBPF探针技术快速实现全局应用可观测，无侵入应用探针为主，OpenTelemetry为辅实现代码级可观测能力。

　　趋势三：聚焦业务成败

　　在“业务至上”的时代，技术工程师们保障的核心其实并不是这套IT系统或软件，核心其实是业务。

　　一笔业务可能会涉及到多个微服务系统，需要追踪到整个API关联的订单、用户甚至具体到哪一笔交易，这也是可观测性和业务结合的一个重要发展趋势。

　　趋势四：加大IT投入

　　“可观测性”被定义为是一个降本增效的好工具，这让许多开发者认为安装了可观测性平台，就可以降低成本、为业务创造价值。

　　事实上，可观测性工具从来不是一个“便宜”的东西，可观测性平台除了基本的工具投入，还需要有一套完整的数据存储方案，企业自研一套优秀的可观测性解决方案投入成本并不低。

　　以美国企业的可观测性相关投入为例，其占企业整体IT支出的5%-10%。

　　因此，可观测性产品的“降本增效”不是短时间内就可以显现出来的，而是通过长时间的应用产生价值，企业将做好加大投入的准备。

　　趋势五：可观测性与安全融合

　　安全和可观测性的合并，已在全球范围内形成一种趋势。

　　摩根士丹利《安全分析和可观测性》一文中提到，在国外，以DataDog为代表的公司在上市之后发布的新增功能中有70%都是安全相关的。

　　这其中的道理非常简单，可观测性是通过检查其输出来衡量系统内部状态的能力，它收集了系统的方方面面，通过这些数据可以分析出系统的故障，自然也就能够分析出系统有没有被入侵。

　　比如DataDog就提供了通过分析当前访问请求，区分哪些可能是黑客在嗅探，或者准备未来做DDoS攻击的接口的功能。

　　也就是说，采集的数据在安全方面也能够发挥作用，而不像传统安全工具那样，需要针对安全场景再进行一次数据采集。

　　所以，安全和可观测性的合并在全球范围内已经成为一种趋势。

　　针对攻击现场的追踪，比如国内的态势感知、SIEM这些安全产品都选择了和可观测性进行融合。

　　结语

　　总体来说，真正的可观测性平台应该是，能够将各种各样对于系统的形态、实时的状态进行有结构性的收集并提供一系列的观察、测量手段的平台。

　　就像传感器一样，能够让开发者们的开发、测试、运维过程变的更容易，能够即时了解系统的运行状态，而并不是简简单单的“监控”。

　　【关于科技云报道】

　　专注于原创的企业级内容行家——科技云报道。成立于2015年，是前沿企业级IT领域Top10媒体。获工信部权威认可，可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

　　榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn（把#换成@）。

科技云

分享到微博分享到微信

科技云报道：2023年，可观测性迎来哪些新趋势？

相关阅读

新动态

关注度

最话题