可观测领域系列之存储分析鉴赏Talk(Part 1)

青涯1年前最新动态698


前面有文章也提到过,可观测领域目前尚存的一些短板,其中存储分析就是其一,只能根据过往的一些经验,

以及调研分析来尝试帮大家鉴赏下当前这个领域的一些技术和竞品分析。

在分析这个问题之前,我们先从场景出发,以及行业对于可观测数据存储分析要求,以及当前的局面分析。

1,日志查询分析场景,没错,如果单论日志查询,特别是全文检索能力,elasticsearch是此领域的第一,

特别是功能的丰富度以及可定制化,以及性能等综合能力。

2,链路点查场景,这个场景下,最频繁的场景就是根据traceId查询一段时间内产生的链路数据,

其实相对来说,和日志查询场景类似。

3,多维时序指标分析计算场景,这里行业比较有共识的问题,就是高基数下数据查询对系统的稳定性和性能压力。

4,在时序指标数据查询分析场景之上再泛化下,就是针对常规的结构化数据进行更加通用的关联统计查询,

而不是仅仅针对时序数据的单表单库查询。

以上是基于数据类型和场景,做了一个简单分析,除此之外,可观测领域的数据以及要求,还具备以下几个特征:

1,数据量大,尽管当前大数据的概念早已深入人心,并体现在了一众企业强调的数字化转型的潮流中,

但可观测领域才是大数据的修罗场,数据量少则百亿级,

是真正的TB/PB级数据,这远远不是业务领域的数据所能比拟的。

2,时序属性,按照常规的时间戳,指标键,指标值,标签组。

3,非结构化,可观测领域的数据还有一个显著特征,就是非结构化,或者半结构化,其中日志数据,尤为明显,

这就引出了一个需求,数据的清洗(ETL),否则这种非结构化数据很难被使用,这个在大数据领域,

已经有一套非常成熟的操作流程和体系了(SOP)。

4,实时性,如果说大数据领域是T+1的实时性要求,已经司空见惯 ,那可观测领域对于数据的实时性,则可能是近实时的,

毕竟监控告警才是可观测的内核,除此之外就是各种看板,仪表盘,对数据存储分析引擎要求具备高并发的在线查询的能力。

5,事务性要求低,可观测类数据,是典型的查多,改少,甚至不用修改,价值密度相对小,对于联机事务要求低。


基于上面的分析,我们不难得出可观测领域的存储分析引擎的画像如下:

1,分布式,高可用,海量数据存储,基本不可能单机,而是一个分布式协作的高可用系统 

(高可用和事务性不是一个概念,请注意区分理解)。

2,支持多并发的在线实时查询能力,以及快速响应的数据查询分析能力。

3,高并发的数据写入吞吐能力,比如百万每分钟的数据写入能力。

4,存储压缩率高,因为数据量大,价值密度低,考虑到存储成本问题,具备高存储压缩率,对于企业使用成本也是一个重要的考量因素。

5,丰富的数据处理能力,特别是数据查询和分析的函数支持丰富度,这里主要考虑到可观测领域各种看板,

报表分析能力,而且又是非结构化数据。

6,易运维,其实这是一个衍生的需求,毕竟这从某种程度上,也属于大数据系统,而数据系统,特别是以hadoop为主流的数据系统,

运维管理的难度不小,易运维,或者说稳定性,对于可观测的存储分析系统也是一个要求。

7,生态兼容,这个也是从行业和用户提出的衍生需求,这里不得不提到SQL/DSL之争了,尽管SQL从某种意义上,也是一种DSL,

但架不住SQL的历史和使用群体,至于DSL的代表,比如promql,spl,谁叫prometheus是当前云原生领域监控的事实标准呢,

另造轮子,不是不可以,但既有用户是否买单呢?


上面花了不少笔墨分析了可观测领域存储分析的使用场景,要求,以及行业画像,那么业界是否有可以满足的竞品呢?

根据笔者的一些行业经验,列出一些行业开源或者非开源的头部产品来做一些分析:

提供一个表格多维度对比分析 :

aa.jpg

产品
elasticsearch     
clickhouse
prometheus
分布式
支持,elasticsearch的分布式能力支持相对全面成熟,支持副本,分片,冷热备份,整体能力出众。
支持,无中心的分布式架构,支持副本,分片
支持,但底层分布式存储能力,方案众多,不稳定,这恰恰证明没有一个能抗事的。
通用性
高,特别是全文检索能力优越
高,可用于日志,链路,事件,指标等不同数据模型
低,支持数据结构单一,在时序指标数据能力优越
读写性能
高,json类查询语法,使用相对复杂
高,高并发读有瓶颈
压缩率
超高,相较elasticsearch有5倍以上的优势,甚至更高。
聚合分析能力和函数丰富度
一般
高,丰富的表引擎,以及函数,以及聚合分析能力是其立身之本
promql,相较sql有难度,可配合grafana可视化使用
可运维性
高,从接触信息以及自身的使用经验来看,elasticsearch的运维成本相对较高
一般,尽管分布式能力有些半手动,但相对稳定,整体运维难度可控。
一般,分布式存储以及稳定性依旧是短板
生态
丰富,和kibana结合,形成了以ELK为主的全套技术栈
一般,但提供的SQL读写能力,非常方便第三方系统以及用户快速集成和使用
丰富,和grafana/kubernetes深度结合,提供了方便用户使用的全套技术方案
同类产品分析
翻翻cncf全景,可以看到一些竞品,quickwit.io,parseable.io等用rust编写的日志类数据存储分析类开源产品,这些开源产品,相较于elasticsearch的优势也比较明显,毕竟elasticsearch不仅仅为日志观测所设计,有很多冗余设计,而新型的开源产品轻装上阵,更加专注
doris : 一个国内发起的olap数据仓库,其发行商也出品了一些用doris来做日志中心的生产实践,从基本能力上来看,和clickhouse很接近,但个人并没有生产环境的实践经验,但从对外的资料来看,可以作为替代品
victoriametrics,一个借鉴prometheus的超集,从集群,到性能相较prometheus有不少优势,可生产使用
greptimedb,一个国内技术爱好者发起的基于rust编写的分布式时序数据库,从官方写的一系列技术文章来看,值得尝试。



相关文章

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

1月13日,袋鼠云旗下数据化运维子公司云掣科技与阿里云再度签署战略合作协议,阿里云智能云原生应用平台负责人丁宇(花名:叔同)、阿里云云原生PaaS负责人张军(花名:游骥)、阿里云智能云原生可观测负责人...

高效安全迁移:PG高可用集群实战方案深度解析

高效安全迁移:PG高可用集群实战方案深度解析

PostgreSQL是一个开源的数据库管理系统,相比于其他开源数据库系统,PostgreSQL有更加丰富的数据类型和可扩展性,并因此被广泛采用。在实际工作中,若企业业务需求变动,则有可能面临PG高可用...

袋鼠云秋季发布会圆满落幕,AI驱动让生产力数智化

袋鼠云秋季发布会圆满落幕,AI驱动让生产力数智化

在当今时代,AI 的发展如汹涌浪潮,其速度之快超越了任何历史时期。它以前所未有的迅猛之势,渗入到各个领域的不同场景之中,悄然重塑着商业模式与人们的生活方式。在 AI 逐渐成为企业基础属性的背景下,袋鼠...

客户实践案例丨详解如何改造存储表分区,彻底解决Zabbix误告警现象

客户实践案例丨详解如何改造存储表分区,彻底解决Zabbix误告警现象

Zabbix 是一款常用的监控工具,它可以监控网络设备、服务器、应用程序等多种资源的状态。目前,使用 Zabbix 最大的瓶颈是数据库,维护好 Zabbix 的数据存储和告警,就能很好地应用 Zabb...

MySQL数据库线程池泄露场景解决方案

MySQL数据库线程池泄露场景解决方案

在数字化时代,数据是企业的核心资产,而数据库则是存储和管理这些资产的重要仓库。本文通过云掣为某信息化管理行业客户快速解决MySQL数据库故障的案例,详细的分享了MySQL数据库出现问题时的解决思路和具...

袋鼠云CEO宁海元:打通数智基建到应用的通路,让数据不再“躺灰” | 数据猿专访

袋鼠云CEO宁海元:打通数智基建到应用的通路,让数据不再“躺灰” | 数据猿专访

一家大型制造企业的老板最近心情颇为复杂。几年前,企业投入巨资构建数据存储和治理系统,如今数据确实源源不断地积累,但他发现,这些数据似乎并没有带来预期的业务收益。虽然存储成本逐年攀升,但数据依旧沉睡在系...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。