Tag Archives: HBase

关于Apache Hadoop 1.0

本文译自cloudera公司Charles Zedlewski写的一篇文章《An update on Apache Hadoop 1.0》

关于最新发布的Apache Hadoop V1.0,一些用户或客户会问:这个版本的功能有哪些?基于哪个版本?后续的版本是什么?要解释这一点,我们应该从Apache项目发布的一些基本知识开始:
一般来说,Apache项目的新功能在主干代码上开发(也就是“trunk”)。有时候,很大的特性也会有自己的开发分支(也就是“branch”),他们期望后续会并入trunk。新功能通常是在trunk发布之前就有了,一般质量或稳定性没有太大保证。候选的分支会定期从主干分支上分离出来发布。一旦一个候选分支发布,它通常停止获得新的功能。如果有BUG修复,经过投票后,会针对这个特定的分支再发布一个新版本。社区的任何成员可以创建一个版本分支,并可随意命名。

a brief history of Apache Hadoop branches & releases

a brief history of Apache Hadoop branches & releases

此图说明了各个Apache Hadoop版本和他们的起源历史。有3次,其中来自Apache Hadoop项目的社区版本打破了release和branch的传统规范。这些通常是造成用户困扰的根源。

  1. Apache Hadoop的0.20版本分支一年多后,重要功能仍然在该分支上继续开发,而不是在主干上。0.20.2分支上增加了两大主要特性:一是验证,增强了 hadoop核心的安全性;另外一个是append,使用户运行的Apache HBase无数据丢失的风险。security分支后来被发布为0.20.203。这些分支和其后续版本已经成为用户困扰的最大来源,因为自那之 后,0.20的分支版本有的功能主干版本却没有,反之亦然。
  2. 在时间上,Apache Hadoop 0.22是在Apache Hadoop 0.23之后发布的。实际上,Apache Hadoop 0.23是0.22版本的严格超集,但它却在0.22版本一个月前发布。
  3. 0.23版本发布几周后,0.20的一个分支(也就是0.20.205)重命名为1.0版本。但0.20.205和1.0之间没有功能上的差异,这仅仅是重新编号。

因为第1点,曾经有18个月之长的期间,没有一个Apache版本有Apache Hadoop所有承诺的功能特性。下表说明了这一点:

hadoop release table

hadoop release table


Data Warehouse For Ever原创文章,转载请注明出处