大数据平台
以海量数据存储、计算及流数据实时计算等场景为主的一套基础设施。通过大数据平台,企业可以更方面地了解企业全方位信息,更快地作出数据驱动的决策,更快地推出适应客户需求的产品。
Apache Hadoop
Hadoop是一个由 Apache 基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是大数据技术中的基石。Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。
- 海量数据存储
HDFS 有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(High throughput)来访问数据,适合那些有着超大数据集(large data set)的应用程序。
它由 n 台运行着 DataNode 的机器组成和 1 台(另外一个 standby )运行 NameNode 进程一起构成。每个 DataNode 管理一部分数据,然后 NameNode 负责管理整个 HDFS 集群的信息(存储元数据)。
- 资源管理,调度和分配
Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统 一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
Greenplum
Greenplum 是业界最快最高性价比的关系型分布式数据库。它在开源的 PostgreSQL 的基础上采用 MPP 架构(Massive Parallel Processing,海量并行处理),具有强大的大规模数据分析任务处理能力。
- 完善的标准
GreenPlum 数据库支持 ANSI SQL 2008 和 SQL OLAP 2003 扩展;支持 ODBC和JDBC 应用编程接口。完善的标准支持使得系统开发、维护和管理都大为方便。
(而现在的 NoSQL 和 Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。)
- 数据的强一致性
GreenPlum 数据库支持分布式事务,支持 ACID,保证数据库中数据的强一致性
- 良好的线性扩展能力
GreenPlum 数据库采用 MPP 架构,其基本特征是有多台 SMP(Symmetric Multi-Processor,对称多处理器)服务器通过节点互联网络连接而成,是一种 Share Nothing(完全无共享)结构,因而扩展能力最强,理论上可以无限扩展。目前的技术可以实现512个节点互联,包含数千个CPU
Clickhouse
ClickHouse是一个用于联机分析 (OLAP)的列式数据库管理系统 (DBMS),主要用于数据分析(OLAP)领域。
通过不同的表引擎,实现分布式存储及计算,如著名的 MergeTree 系列。
目前国内社区火热,各个大厂纷纷跟进大规模使用:
- 今日头条 内部用 ClickHouse 来做用户行为分析,内部一共几千个 ClickHouse 节点,单集群最大 1200 节点,总数据量几十 PB,日增原始数据 300TB 左右
- 腾讯内部用 ClickHouse 做游戏数据分析,并且为之建立了一整套监控运维体系
- 携程内部从18年7月份开始接入试用,目前 80% 的业务都跑在 ClickHouse 上。每天数据增量十多亿,近百万次查询请求
- 快手内部也在使用 ClickHouse,存储总量大约 10PB, 每天新增 200TB, 90% 查询小于 3s
- Yandex 内部有数百节点用于做用户点击行为分析,CloudFlare、Spotify 等头部公司也在使用
- 阿里云率先推出了自己的 ClickHouse 托管产品
Doris
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库(采用 MySQL 协议,高度兼容 MySQL 语法)。仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。
Apache Doris 最早是诞生于百度广告报表业务的 Palo 项目,2017 年正式对外开源,2018 年 7 月由百度捐赠给 Apache 基金会进行孵化,之后在 Apache 导师的指导下由孵化器项目管理委员会成员进行孵化和运营。2022 年 6 月,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Apache 顶级项目(Top-Level Project,TLP)
Apache Doris 如今在中国乃至全球范围内都拥有着广泛的用户群体,包括百度、美团、小米、京东、字节跳动、腾讯、网易、快手、微博、贝壳等。同时在一些传统行业如金融、能源、制造、电信等领域也有着丰富的应用。
P.S. 同源 StarRocks 是一款极速全场景 MPP 企业级数据库产品,具备水平在线扩缩容,金融级高可用,兼容 MySQL 5.7 协议和 MySQL 生态,提供全面向量化引擎与多种数据源联邦查询等重要特性。StarRocks 致力于在全场景 OLAP 业务上为用户提供统一的解决方案,适用于对性能,实时性,并发能力和灵活性有较高要求的各类应用场景。
MaxCompute
MaxCompute 是适用于数据分析场景的企业级 SaaS(Software as a Service)模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,经济并高效地分析处理海量数据。
MaxCompute 适用于 100 GB 以上规模的存储及计算需求,最大可达 EB 级别。
MaxCompute 提供离线和流式数据的接入,支持大规模数据计算及查询加速能力,提供面向多种计算场景的数据仓库解决方案及分析建模服务。提供完善的数据导入方案以及多种经典的分布式计算模型,。MaxCompute 已经在阿里巴巴集团内部得到大规模应用,适用于大型互联网企业的数据仓库和 BI 分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。
Serverless,无需考虑服务器或集群即可运行代码。无服务器事件驱动型计算服务。
事实上,MaxCompute 包括数据同步(DataWorks)、BI 报表(Quick BI)、机器学习PAI(Platform of Artificial Intelligence,阿里云人工智能平台),提供 SaaS(Software as a Service)服务。