实时化与 Serverless 是开源大数据 3.0 时代的必然选择

发布时间:2023年12月20日

近日在 2023 云栖大会上,阿里云开源大数据产品进行了年度发布:E-MapReduce、Elasticsearch?等开源大数据产品全面?Serverless?化;创新性推出?Flink?与?Paimon?搭档的新一代流式湖仓;拥抱?AI,推出?Milvus?全托管服务,升级智能运维工具?EMR?Doctor?以及?Flink?Advisor。

核心组件全面 Serverless 化

在大会上,阿里云开源大数据平台负责人王峰,回顾了阿里云开源大数据技术演进路线:自 2009 年起,经历了以大数据上云为代表的 1.0 时代,以数据湖和实时化为代表的 2.0 时代,如今阿里云开源大数据平台迈向了 3.0 时代,随着云原生架构的深入落地,已将开源大数据平台的核心计算组件?Flink、EMR?Spark、StarRocks?和存储组件?OSS-HDFS?等全部实现?Serverless?化。

产品性价比飙升 2 倍

阿里云开源大数据产品总监陈守元表示, 阿里云开源大数据产品通过底层技术优化,包括集成倚天 710 芯片和自研引擎功能增强等,用户使用成本大幅降低 50%,引擎性能相比于开源版本提升 1~3 倍,综合性价比提升超 2 倍。

· 阿里云?E-MapReduce?全新上线?Serverless?StarRocks?和?Serverless?Spark,为用户提供全托管、免运维等服务。湖存储?OSS-HDFS?和一站式湖管理平台?DLF?全新升级,为企业构建现代开源开放的数据湖仓提供一站式服务。

· 阿里云实时计算?Flink?版推出企业级数据集成方案,配合?Flink?优秀的管道能力和丰富的上下游生态,可高效实现海量数据的实时集成。

· 阿里云检索分析服务?Elasticsearch?版推出兼容开源、按需使用的?Serverless?版本,平台会根据业务流量波动,自动调度决定资源的增加或缩减,秒级弹性扩缩,实现负载与资源动态匹配的按量付费。

黄金搭档?Flink?+?Paimon:新一代的流式湖仓

数据分析正从传统 Hive 模式向湖仓架构升级 ,阿里云从大量实践中推断,实时化是湖仓分析下一步的演进方向。在这种技术趋势下,阿里云基于黄金搭档 Flink+Paimon,打造出新一代的流式湖仓新方案,为用户提供一站式数据入湖、实时加工和探查分析能力,拓展数据湖场景的实时计算能力,Flink 批计算已在云上实现生产可用,支持湖上批量数据处理和作业调度。在 5 亿条数据入湖场景中,与开源 Hudi 方案相比,阿里云流式湖仓方案 Upsert 性能提升超过 4 倍,Scan 性能提升超过 10 倍。

更智能的开源大数据

当前 AI 全面爆发,阿里云开源大数据平台也将 AI 技术引入大数据平台体系中,升级了智能化运维工具?EMR?Doctor、Flink?Advisor,并已广泛应用于客户和阿里云内部平台运维,平均集群问题识别时间减少 30% ,集群资源有效利用率提升 75%,帮助阿里云开源大数据平台实现智能化运维和数据管理。同时,阿里云推出了 Milvus 全托管服务,为多模态数据提供向量检索能力,加速客户 AI 应用。

文章来源:https://blog.csdn.net/weixin_48534929/article/details/135101873
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。