共计 2338 个字符,预计需要花费 6 分钟才能阅读完成。
“现在是企业应用 Hadoop 的最佳时机。”Hortonworks 公司首席技术官 Jeff Markham 在 11 月底举行的 2013 中国 Hadoop 技术峰会上演讲时表示。在本次峰会上,Hadoop 进入 2.0 时代成了人们谈论的焦点。Jeff Markham 表示,Hadoop 2.0 拥有更强大、更广泛的符合企业用户需求的新特性,弥补了 Hadoop 1.0 的不足之处,更符合企业用户的需求。
Hadoop 改头换面
Jeff Markham 在介绍 Hadoop 2.0 的新特性时,记者听到身后有人窃窃私语:“你看,Hadoop 2.0 的框架中多了几个奇怪的功能模块。”是的,这些功能模块中最重要的就是 YARN。YARN 其实是一个资源管理器,它从某种程度上说颠覆了 Hadoop 的数据处理核心 MapReduce,能让用户以与批处理完全不同的新的交互方式来运行 Hadoop。众所周知,Hadoop 的设计初衷是为了搜索和索引 Web 网页,而负责操控数据的 MapReduce 擅长处理和分析非结构化或半结构化的数据,比如日志文件等,但并不适合处理所有类型的数据。随着数据量的增长以及数据复杂性的增加,人们更希望能够在一个集群中处理多种类型的应用程序。这也是 Hadoop 2.0 诞生的背景。
有人认为,YARN 本质上就是 Hadoop 的新操作系统,它突破了 MapReduce 的性能瓶颈。Hadoop 与 YARN 的组合更适合企业大数据的应用。YARN 的设计思想是将资源管理与作业调度 / 监控功能分离,其架构实现是通过一个全局的 ResourceManager 与若干个面向具体应用程序的 ApplicationMaster 的组合,其中 ResourceManager 负责将资源分配到各个应用程序,而 ApplicationMaster 负责运行和监控任务。Jeff Markham 表示:“加入 YARN 这一管理层,让 Hadoop 可以更好地满足企业级用户对大数据平台的需求。我们公司从安全、管理、配置等多个层面已经为 Hadoop 2.0 进入企业做好了准备。”
Hadoop 2.0 已经不是一个设想,而是实实在在的解决方案。中国本土的大数据公司星环信息科技 (上海) 有限公司 (以下简称星环科技) 就在峰会上宣布,正式推出融合 Spark 与 Hadoop 2.0 的大数据平台产品 Transwarp Data Hub。“企业用户的一个共同想法是,更高效地处理更大量的数据,同时降低时延。”星环科技联合创始人、CTO 孙元浩介绍说,“以前,针对不同数量级的数据,人们会采用不同的处理技术,比如内存技术、索引技术以及一些性能优化技术等。Transwarp Data Hub 的一个最突出的优势是,可以在一个平台上处理从 GB 级到 PB 级的数据。”
正是因为 Transwarp Data Hub 具备了这样的能力,所以它的应用范围十分广泛,包括离线分析、统计与挖掘、在线存储以及在线的基于内存的高速分析等。Transwarp Data Hub 将数据集成 /ETL、大数据存储和在线服务系统、基于内存的高效计算引擎、高性能 SQL、统计分析和机器学习等融为一体,实现了性能上的突破。用孙元浩的话说,Transwarp Data Hub 具有“闪电”般的速度,其速度比开源 Hadoop 2.0 快 10~100 倍。此外,Transwarp Data Hub 还具有强大的分析能力,并与 Hadoop 生态系统全面兼容。
以 Transwarp Data Hub 为核心,星环科技还与许多大数据厂商进行了合作,包括 Revolution R、Informatica、Tableau 等,将这些厂商的数据处理与分析工具进行整合,构成了完整的大数据平台。
降低应用门槛
由于 Hadoop 本身的复杂性,以及企业中缺少相关的大数据专业技术人员,Hadoop 若想在企业用户中得到快速普及其实并不容易。因此,很多 IT 厂商纷纷向 Hadoop 抛出“橄榄枝”,有的提供基于 Hadoop 的硬件解决方案,有的则推出了 Hadoop 软件的商业发行版,其目的只有一个,就是降低 Hadoop 的应用门槛。
在本次峰会上,许多知名 IT 厂商,包括英特尔、VMware、华为等以及众多电信运营、互联网企业都现身说法,为 Hadoop 在中国的推广站脚助威。英特尔亚太研发有限公司总经理何京翔表示,除了发布 Hadoop 商业发行版以外,英特尔从硬件(包括处理器、固态硬盘等)、安全性、管理和优化等多个角度对 Hadoop 提供全方位支持,目的就是让 Hadoop 更能满足企业用户的需要。
相关阅读:
Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm
Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm
Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm
Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm
单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm
搭建 Hadoop 环境(在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建)http://www.linuxidc.com/Linux/2011-12/48894.htm
更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13