查看“大数据平台”的源代码

以海量数据存储、计算及流数据实时计算等场景为主的一套基础设施。通过大数据平台，企业可以更方面地了解企业全方位信息，更快地作出数据驱动的决策，更快地推出适应客户需求的产品。

=== Apache Hadoop ===
Hadoop是一个由 Apache 基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题，是大数据技术中的基石。Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理，用户可以在不了解分布式底层细节的情况下，开发分布式程序，用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。

* 海量数据存储

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（High throughput）来访问数据，适合那些有着超大数据集（large data set）的应用程序。

它由 n 台运行着 DataNode 的机器组成和 1 台（另外一个 standby ）运行 NameNode 进程一起构成。每个 DataNode 管理一部分数据，然后 NameNode 负责管理整个 HDFS 集群的信息（存储元数据)。

* 资源管理，调度和分配

Apache Hadoop YARN（Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统和调度平台，可为上层应用提供统 一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

=== Greenplum数据库 ===
Greenplum 是业界最快最高性价比的关系型分布式数据库。它在开源的 PostgreSQL 的基础上采用 MPP 架构（Massive Parallel Processing，海量并行处理）,具有强大的大规模数据分析任务处理能力。

* 完善的标准

GreenPlum 数据库支持 ANSI SQL 2008 和 SQL OLAP 2003 扩展；支持 ODBC和JDBC 应用编程接口。完善的标准支持使得系统开发、维护和管理都大为方便。

（而现在的 NoSQL 和 Hadoop 对 SQL 的支持都不完善，不同的系统需要单独开发和管理，且移植性不好。）

* 数据的强一致性

GreenPlum 数据库支持分布式事务，支持 ACID，保证数据库中数据的强一致性

* 良好的线性扩展能力

GreenPlum 数据库采用 MPP 架构，其基本特征是有多台 SMP（Symmetric Multi-Processor，对称多处理器）服务器通过节点互联网络连接而成，是一种  Share Nothing（完全无共享）结构，因而扩展能力最强，理论上可以无限扩展。目前的技术可以实现512个节点互联，包含数千个CPU