经过长时间的精心研发和不断优化,Kindling-OriginX 产品团队成功推出创新性的产品—Kindling-OriginX 故障根因推理引擎。这将从根本上给现有的排障流程、故障响应机制、可观测性方案带来全新的体验。进入Kindling-OriginX官方网站了解更多。
Kindling-OriginX 是杭州云观秋毫科技有限公司利用创新型 TraceProfiling 技术构建的一款故障根因推导产品。Kindling-OriginX 故障根因推理引擎利用 AI 和 eBPF 以及专家经验精准梳理各类分散监控指标与日志智能生成故障根因报告,助力用户轻松实现 1-5-10。
Kindling-OriginX?旨在助力每个人都能够轻松具备专家级排障能力,使每一位技术人员都能够做到5分钟定位故障根因,从而帮助企业真正落地实践 1-5-10 故障响应机制,提高故障处理的效率和准确性。无论是代码层面故障、还是基础设施层面故障、亦或是微服务系统中复杂的级联故障,Kindling-OriginX 都能够准确定位故障根因,给出故障根因报告。
目前各种可观测性工具 Traces、Metrics、Logging 的使用对于简单故障的定位和排查在一定程度上能够提供比较有效的帮助,特别是在有相关经验处置人员的情况下,对于大部分比较简单的故障场景基本都能够做到有效覆盖,快速处置。
但在实际业务场景中却存在着很大的局限性,一方面专家难寻,同时专家也受限于已有经验,缺乏标准化流程,往往对于有过类似经验的故障,能够比较快速定位处理,无法明确根因的问题,只能通过不断猜测验证,容易丢失1-5-10目标。另一方面现代分布式系统,特别是当前云原生环境下的微服务系统,故障往往都是以级联故障的形式表现出来,单靠个人经验和传统?Traces、Metrics、Logging 类数据难以快速定位问题根因,导致 1-5-10 目标难以真正落地实践。
针对目前这些问题,Kindling-OriginX 通过 Trace 来组织故障线索,利用 eBPF 技术,基于主流可观测性产品技术栈,将每个故障 Trace 来都直接给出故障根因报告,对每个故障节点都直接给出结论,通过结合故障处置优先级原则,不仅能使级联故障根因得到快速定位,也能赋予每一位技术人员专家级的排障经验。
传统告警体系主要以经验教训为导向,即告警规则和告警指标这些线索都是通过行业经验或者历史经验得到,随着业务复杂化,不可避免的会导致告警的数量和种类也越来越多。一方面如果减少告警,就可能导致故障隐患或者导致缺失故障线索;另一方面持续增加告警,又会带来噪声和告警风暴,不仅有可能埋没根因,还有可能导致OnCall人员麻痹大意,忽略真正有巨大隐患的告警信息。
Kindling-OriginX 提出仅仅依赖 API SLO 违约告警的故障处置流程。Kindling-OriginX 中只有业务请求受到故障影响才会告警,其他时候指标异常、故障都不会告警。
一方面 Kindling-OriginX 认为不管何种故障,最终都会影响到业务体验上,如果业务体验没有任何影响,即系统中任何请求和访问都既没有变慢也没有出错,那么这个故障为什么能称之为故障呢?SLO 违约告警其本质是依赖于 Google 提出的运维黄金指标来判断业务是否正常,如果业务不正常了,SLO 也就产生违约了。
另一方面 Kindling-OriginX 的核心能力就是故障根因推导,能够分钟级甚至秒级定位故障根因同时给出故障报告。在这种能力的加持下,故障处置人员就不需要根据各类冗杂的指标告警来提示根因,直接从故障根因报告中就能够得到已定位的初因,同时能够对故障根因推导的过程进行审阅,确认在整个推导过程中哪些指标出现异常,为后续采用何种处置预案提供更明确的数据和方向指引。
在实际使用中,用户只需要设定和关注 API 的 SLO,结合 Kindling-OriginX 精准高效的故障根因分析技术,就能够使用户在极短的时间内响应并解决问题,发现各种隐患。这意味着即使是没有深厚技术背景和强大专家团队的用户也能够利用 Kindling-OriginX 来达成 1-5-10 目标。
?利用 eBPF 技术能够深入内核,拦截线程执行用户代码的关键点位获取信息,在获得线程执行关键信息之后能够还原线程的执行过程,进而获取到传统监控无法采集到的内核层指标,实现更精准深入的分析。
实际业务系统中开发和运维所讨论的故障都是URL维度的用户请求调用,所以光有线程维度程序执行过程是不够的,需要和 Tracing 系统关联。?当线程执行过程与 Tracing 系统关联之后,才能完整还原用户一次请求的执行过程。Kindling-OriginX 通过 eBPF 和 TraceProfiling 技术,精准捕捉每一次调用,自动组织和关联高价值的故障关联数据。
龙蜥社区与 Kindling 社区联合发布北极星排障指标体系,构建出了一套排障指标体系与标准化的步骤,力求为目前业界在故障处置流程中遇到的各种困境找到一条可操作可落地的标准化排障之道。Kindling-OriginX 基于北极星排障指标体系深入拆解分析各类关键指标,让标准化排障真正做到可操作可实践。
Kindling-OriginX 基于目前云原生主流技术栈构建,无需对当前系统观测工具体系做大规模改造,只需简单安装部署即可完成安装集成。同时对宿主节点各类资源占用消耗极少,几乎对现有业务系统零侵入。
Kindling-OriginX 采用边缘节点架构设计,一方面保证高效完成数据分析和故障根因推导,另一方面数据完全私有化存储,用户拥有全部数据的绝对控制权。无需担心数据安全与数据隐私问题。
我们相信 Kindling-OriginX 故障根因推理引擎的出现定将会为当前企业和技术团队在故障处置、系统优化、云原生可观测性等相关领域带来理念的变革和效率的提升。同时?Kindling-OriginX 也致力于推动云原生可观测性生态真正在业务场景中落地实践,帮助企业在消除盲区的同时,真正能够落地 1-5-10。
点击进入 Kindling-OriginX 官方网站,通过在线Demo体验真实系统中 Kindling-OriginX 的故障推理效果演示。
如果您有任何疑问或合作需求,请随时联系我们。添加微信小助手进群交流,我们非常期待和您的沟通交流。
了解更多有关云原生可观测及?Kindling-OriginX?排障实战相关信息,敬请关注我们的公众号,感谢大家的支持和关注!