查看“大数据平台”的源代码
←
大数据平台
跳到导航
跳到搜索
因为以下原因,您没有权限编辑本页:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
以海量数据存储、计算及流数据实时计算等场景为主的一套基础设施。通过大数据平台,企业可以更方面地了解企业全方位信息,更快地作出数据驱动的决策,更快地推出适应客户需求的产品。 === Apache Hadoop === Hadoop是一个由 Apache 基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是大数据技术中的基石。Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。 * 海量数据存储 HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(High throughput)来访问数据,适合那些有着超大数据集(large data set)的应用程序。 它由 n 台运行着 DataNode 的机器组成和 1 台(另外一个 standby )运行 NameNode 进程一起构成。每个 DataNode 管理一部分数据,然后 NameNode 负责管理整个 HDFS 集群的信息(存储元数据)。 * 资源管理,调度和分配 Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统 一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 === Greenplum数据库 === Greenplum 是业界最快最高性价比的关系型分布式数据库。它在开源的 PostgreSQL 的基础上采用 MPP 架构(Massive Parallel Processing,海量并行处理),具有强大的大规模数据分析任务处理能力。 * 完善的标准 GreenPlum 数据库支持 ANSI SQL 2008 和 SQL OLAP 2003 扩展;支持 ODBC和JDBC 应用编程接口。完善的标准支持使得系统开发、维护和管理都大为方便。 (而现在的 NoSQL 和 Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。) * 数据的强一致性 GreenPlum 数据库支持分布式事务,支持 ACID,保证数据库中数据的强一致性 * 良好的线性扩展能力 GreenPlum 数据库采用 MPP 架构,其基本特征是有多台 SMP(Symmetric Multi-Processor,对称多处理器)服务器通过节点互联网络连接而成,是一种 Share Nothing(完全无共享)结构,因而扩展能力最强,理论上可以无限扩展。目前的技术可以实现512个节点互联,包含数千个CPU
返回
大数据平台
。
导航菜单
个人工具
登录
命名空间
页面
讨论
大陆简体
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
目录
文章分类
侧边栏
帮助
工具
链入页面
相关更改
特殊页面
页面信息