Databricks决定开源其Delta Lake数据湖

2024-02-10 技术知识

  Ventana Research 研究总监马特·阿斯莱特(Matt Aslett)说:“新公告应该为用户更好的提供连续性和清晰度,并有助于消除关于 Delta Lake 是专有还是开源的混淆(部分由竞争对手引发)。”

  “在竞争易中,Snowflake 等竞争对手会向潜在客户指出 Delta Lake 的某些方面是专有的,”Henschen 说,并补充说 Databricks 客户能相信他们的数据在一个开放平台上,而不是锁定在 Delta Lake 中。

  Databricks 将 Delta Lake 称为数据库湖,一种同时提供存储和分析功能的数据架构,这与以原生格式存储数据的数据湖和存储结构化数据(通常以 SQL 格式)的数据仓库的概念形成对比。

  随着数据湖市场上的商业开源项目慢慢的变多,Databricks 的 Delta Lake 会发现了自己面临新的竞争,包括为超大型分析表提供高性能查询的 Apache Iceberg。

  Ventana 的 Aslett 说,该领域的许多其他参与者都专注于 Apache Iceberg 作为 Delta Lake 表的替代品。与以行和列存储数据的传统表相比,Delta 表能够正常的使用 ACID(原子性、一致性、隔离性和持久性)事务来存储元数据,并帮助加快数据导入。

  4 月,Google 宣布支持 Big Lake 和 Iceberg,本月早一点的时候,Snowflake 宣布在私人预览版中支持 Apache Iceberg 表。Henschen 说,与 Databricks 的开源战略一样,Iceberg 的公告旨在吸引潜在客户,这些客户可能担心向一家供应商承诺,以及未来可能没办法访问自己的数据。

  该公司表示,Databricks 的 Delta Lake 2.0 将于今年晚些时候全面推出,预计将为数据分析提供更快的查询性能。

  Databricks 周二还发布了第二版 MLflow——一个用于管理端到端机器学习生命周期 (MLOps) 的开源平台。该公司表示,MLflow 2.0 附带 MLflow Pipelines,它为数据科学家提供基于他们正在构建的模型类型的预定义、生产就绪模板,使他们可以加速模型开发,而无需生产工程师的干预。

  据分析师称,MLflow 2.0 将成为数据科学家更成熟的选择,因为机器学习生产仍然是一个具有挑战性的过程,并且将算法模型转换为安全管理资源上的生产级应用程序代码仍然很困难。

  Henschen 表示,发布 MLflow 2.0 的举措简化了将流式传输和流式分析引入生产数据管道的途径,并补充说,许多公司在 MLOps 方面遇到了困难,即使在成功创建机器学习模型后也会失败。

  数元灵科技专注于一站式湖仓智能平台新基建,在研项目包括云原生湖仓一体框架,分布式训练引擎和算法框架,高性能数据、模型在线服务,以及云原生一站式AI开发生产平台。LakeSoul作为国产自研开源湖仓框架,具备湖仓一体、流批一体、BIAI一体等核心设计理念和实现,在并发读写和IO性能等方面有着显著的优势。

  大数据对于商务人士来说是让人兴奋的产物,许多的大数据杀手级应用将不断出现。对于存储管理员来说,存储基础设施将一直增长,这是毫无疑问的。你一直都在全部客户中收集最终用户每毫秒的行为数据,想象一下如果你能马上查看所有数据,不需要仔细考虑数据监管、数据管理、数据保护和其它所有相关的烦恼,你需要做的只是把你所有的数据放到一个相对廉价又具备...