• home > DB > NotOnlySQL >

    开源的分布式SQL数据仓库Doris

    Author:zhoulujun Date:

    Apache Doris是一个开源的分布式SQL数据仓库,旨在提供高性能、低延迟的数据分析和查询能力。Doris的性能主要取决于集群的规模和配置。它可以通过水平扩展来处理大规模数据和高并发查询

    Doris是什么:

    官网:https://doris.apache.org/docs/dev/get-starting/what-is-apache-doris

    Apache Doris是一个开源的分布式SQL数据仓库,旨在提供高性能、低延迟的数据分析和查询能力。虽然它可以在某些场景下替代MySQL,但它更适合于需要高性能和实时查询的数据仓库应用

    由百度大数据部研发,之前加做百度palo,20118年共享到Apache社区后,更名Doris。

    Doris的性能主要取决于集群的规模和配置。它可以通过水平扩展来处理大规模数据和高并发查询,提供高性能的数据分析和查询能力。

    一个现代化的MPP分析型数据库产品

    • 支持压秒级别响应

    • 架构非常简洁,易于运维

    • 支持10PB以上的超大数据集

    • 高并发的点查询场景,吞吐量高的复杂分析场景

    Apache Doris的主要特点和优势包括:

    1. 分布式架构:Apache Doris采用分布式架构,可以水平扩展以处理大规模数据和高并发查询。它支持数据的分片和分布式存储,可以在多个节点上并行处理查询请求。

    2. 实时数据分析:Apache Doris支持实时数据加载和查询,可以在数据写入后立即进行查询分析。这使得它非常适合需要快速响应和实时洞察的应用场景。

    3. 高性能:Apache Doris通过使用列式存储和多级索引等技术,提供了高性能的数据查询和分析能力。它还支持向量化计算和数据压缩等优化技术,以提高查询效率和减少存储空间。

    4. SQL兼容性:Apache Doris兼容标准的SQL查询语言,使得用户可以使用熟悉的SQL语法进行数据分析和查询。它支持复杂的查询操作,如聚合、连接和子查询等。

    5. 数据一致性:Apache Doris提供强一致性的数据模型,确保数据的准确性和一致性。它支持事务和快照隔离级别,可以保证多个并发操作的数据一致性。

    满足多种数据分析需求

    固定历史报表、实时数据分析、交互式数据分析、探索式数据分析

    应用场景

    用户行为分析、AB实验平台、日志检索分析、用户画像分析、订单分析等应用

    使用场景

    • 报表分析

      • 实时看板 (Dashboards)

      • 面向企业内部分析师和管理者的报表

      • 面向用户或者客户的高并发报表分析(Customer Facing Analytics)。比如面向网站主的站点分析、面向广告主的广告报表,并发通常要求成千上万的 QPS ,查询延时要求毫秒级响应。著名的电商公司京东在广告报表中使用 Apache Doris ,每天写入 100 亿行数据,查询并发 QPS 上万,99 分位的查询延时 150ms。

    • 即席查询(Ad-hoc Query):面向分析师的自助分析,查询模式不固定,要求较高的吞吐。小米公司基于 Doris 构建了增长分析平台(Growing Analytics,GA),利用用户行为数据对业务进行增长分析,平均查询延时 10s,95 分位的查询延时 30s 以内,每天的 SQL 查询量为数万条。

    • 统一数仓构建 :一个平台满足统一的数据仓库建设需求,简化繁琐的大数据软件栈。海底捞基于 Doris 构建的统一数仓,替换了原来由 Spark、Hive、Kudu、Hbase、Phoenix 组成的旧架构,架构大大简化。

    • 数据湖联邦查询:通过外表的方式联邦分析位于 Hive、Iceberg、Hudi 中的数据,在避免数据拷贝的前提下,查询性能大幅提升。



    参考文章:

    Doris的基本概述 https://blog.csdn.net/paicMis/article/details/130172982



    转载本站文章《开源的分布式SQL数据仓库Doris》,
    请注明出处:https://www.zhoulujun.cn/html/DB/NotOnlySQL/8972.html