天蝎计划的“中国式”标准之路 - 新闻中心 - 福州哈唐网络-福建IDC企业!专注云主机及服务器租用托管13年!

新闻中心

首页 > 新闻中心 > 行业新闻 >

天蝎计划的“中国式”标准之路

时间:2015-07-08 08:23:00   阅读:

核心提示: 备受外界瞩目的“天蝎2.5标准”即将在今年下半年正式发布。从诞生初期的天蝎1.0,至逐渐完善的天蝎2.0,其间的发展过程既有平坦,也有波折。此时此刻,让我们回望这一计划的发展,或许会带给我们一些关于“中国式标准化”的不一样的启示。

一、天蝎1.0:整合度的权衡

时间追溯至2012年5月2日。

第三届OCP峰会在圣安东尼奥召开,宣布腾讯和阿里巴巴成为正式会员,并开始筹划Open Rack与天蝎项目的融合,期待能在2013年将两个项目规范合并。这反映了双方的共同意愿,不过,Open Rack与天蝎项目在设计理念上存在较大的分歧,而这又很大程度上是由不同的客观环境决定的。

中国服务器厂商的老朋友Supermicro,已在2010年9月中旬举行的秋季IDF上宣布推出SuperRack整机柜解决方案。Open Rack和天蝎整机柜服务器的定制性更强,不是直接把现有的机架式服务器装满机柜,而像是标准化程度更高、尺度更大的刀片式服务器,机柜好比刀片式服务器的机框(Blade Chassis),要整合供电、散热、管理等“基础设施”。

Open Rack只整合了供电单元(Power Supply Unit,PSU),而天蝎项目还集中了散热(风扇)和管理。

111

天蝎整机柜效果图,机柜中部的PSU和RMC(中图)、背面的风扇墙(右图)以及1U高的服务器节点(左图)是其主要特征

1999年,Google的“软木板”机柜服务器就已集中了风扇。不过,Urs Hölzle等人当时那么做多少有不得已的成分,毕竟软木板服务器没有机箱可以用来固定风扇,既然机柜才是真正意义上的机箱,将风扇集中安装在机柜的后门上便是一个合乎实际情况的选择。后来Google步入正轨,有足够的时间规划,做法也不再那么“山寨”,遂回归到每个服务器节点自备风扇的常规设计。

Facebook的服务器设计与Google颇有渊源,也影响到了Open Rack。将风扇集中到机架后部,形成风扇墙,至少有两大好处:

- 可以使用更大尺寸的风扇,具有更高的效率;

- 减少风扇的数量,有助于控制需维护的故障单元。

222

浪潮SmartRack整机柜服务器的介绍材料,介绍了天蝎项目集中供电、散热、管理的优势,数字仅供参考

既省电,又减少了活动部件的数量,为什么还不集中呢?因为也带来了管理上的挑战——不同的服务器节点发热量有区别,需要的风扇转速可能不同。特别是大直径的风扇会跨越多个服务器节点,即使把同样构造的节点放在一起,亦可能因为工作负载不同,而需要不同的风扇转速,考虑最坏情况,必须就高不就低,仍然难以避免能耗的浪费。

333

天蝎整机柜后部每排风扇的供电线缆及管理用网线(来源:张广彬拍摄)

利弊可以权衡,集中散热必须提供配套的管理——风扇墙是共享的,但要由RMC(Rack Management Controller,机柜管理控制器)或RBP(Rack Back Plane,机柜背板)实现独立风扇控制。天蝎1.0定义了机柜管理模块(RMC Module),阿里巴巴、百度、腾讯和英特尔构成的天蝎项目组2012年3月下旬起草初稿,经过几次修订,2012年5月16日,完成《整机柜服务器管理RMC CLI规范》Version1.0。RMC不仅监控节点(环境、CPU、内存)温度、电源和风扇状况,还有更新风扇控制板固件、识别插入节点是否属于本机柜、将位置信息刷入节点等管理功能。

444

555

百度北极1.0(上)和浪潮SmartRack 3.0(下)整机柜服务器中部的RMC(左侧)及集中PSU(来源:张广彬拍摄)

除了作为重要的发起者之一,百度在天蝎1.0时代是部署的绝对主力,并为天蝎项目贡献了大量工程实践和实验。譬如,供电系统中电源背板是单点,百度与供应商合作,成功实现管理与铜排(busbar)的拆分,铜排基本不会坏,管理部分可以单独更换,就不用冗余设计了,从而降低成本。从供电的角度来看,这种做法也可视为“控制和数据解耦”思路的一种体现。

二、天蝎2.0:内宽与标准化

对于Open Rack将机架内宽扩大到21英寸的做法,天蝎项目一开始是拒绝的。

理由很简单,一个几乎是全新的标准,初期注定没有规模。量上不去,成本下不来。据说,Open Rack刚开始时,仅仅一个机柜的价格就要1500美元。从整个公司的层面来看,BAT对基础设施还没有Google、亚马逊、Facebook那般重视,虽说多花钱是为了最终省钱,但何时能把多花的钱省回来?前瞻是好的,可超越权限太多的事,很难做成。

天蝎1.0基于流行的19英寸EIA 310-D标准机架,规范中要求机架承载能力不小于1200千克。内宽21英寸会削弱机架的承重能力,这也是百度所担心的。Supermicro的SuperRack同样遵循EIA 310-D标准,一直发展到现在。

尽管机架标准不变,毕竟电源相关的部分和服务器节点都需要定制,初期还是会有采购成本上升的问题。经过内部的说服和协调工作,百度表示可以接受采购成本的小幅增长,接下来是浪潮、广达、富士康、华为、英业达等服务器OEM/ODM付出牺牲,用户和厂商共同培育天蝎生态系统。

2012年12月,以天蝎1.0为主体的百度“北极”1.0开发完成,并上线200个机架,部署地点包括我们在2013年1月11日参观的百度南京浦口电信机房;2013年8月,又向内蒙古机房交付数百套产品。在这些远离北京的区域(特别是内蒙古),把大部分组装工作转移到工厂预先完成、现场快速部署可以显著降低人力成本。与传统的机架式服务器相比,天蝎整机柜服务器除了节能,还具有约10倍的交付效率,日交付量从原来的几百台,提高到3000台(节点),乃至5000台(天蝎2.0),对需要快速大批量部署的百度很有价值。

666

百度“北极”2.0、阿里Ali Rack、浪潮SmartRack 4.0,天蝎2.0样机的正面与背面(来源:张广彬拍摄)

然而,随着天蝎项目的发展,Open Rack的前瞻性与大胆探索也逐渐得到验证。

Facebook认为EIA 310-D标准的一大问题是过于宽泛,把高度、深度、安装和布线方案以及连接器的规范都留给制造商去定义。类似的情况在“速成”的天蝎1.0上体现很明显,因为《天蝎项目整机柜服务器技术规格》V1.0只定义了框架设计,各厂商的结构实现、散热、供电、管理皆不统一,这使得运维效率、部件通用性、散热优化、供电与散热管理、可互换支持都成为新挑战,也影响了生态系统的正常发展。

777

腾讯微模块数据中心(TMDC)里的两款整机柜服务器,左边并排两个大尺寸风扇(172mm)的是华为Tecal X8000,右边并排三个较小尺寸风扇(140mm)的是戴尔DCS G5,可以直观的感受到风扇尺寸不同带来的显著差异(来源:张广彬拍摄)

仅举供电和散热的两个例子:供电方式和位置没有规定,风扇尺寸没有规定。服务器节点的供电可以是铜排或背板,都是铜排位置又可能不一样……如此种种,不一而足。作为一个整机柜规范,不能止于把供电单元和散热风扇集中起来,而应把它们也都视为机架的组成部分,有统一的标准。这些都交给制造商去定义,那就要走上刀片式服务器的老路,与成立天蝎项目的初衷不合。

888

联想的天蝎工程样机,供电方面,1.0机型采用居中的背板,2.0机型采用靠左侧的铜排(来源:张广彬拍摄)

机架还是标准的,还没装服务器节点就互不兼容了,每家各有一套,规模自然上不去,成本怎么下得来?

标准化不彻底,显然不是19英寸的问题。Facebook在第三届OCP峰会上宣布提交给孵化委员会(Incubation Committee,IC)代号“Knox”的存储项目——即后来的Open Vault,完整体现了Open Rack将内宽拓至21英寸的价值。

如果不考虑通用机架式服务器为两侧导轨留出的空间,21英寸只比19英寸多出11%左右。但是我们知道,对服务器主板和3.5英寸硬盘等大尺寸元件,可不是这么算的。譬如英特尔从至强E5开始大量提供的6.5英寸宽(20英寸长)主板,做成服务器的话,21英寸正好可以并排3个,而19英寸只能放2个,减少三分之一!

999

第六届OCP峰会戴尔展台上的DCS G5三大组件,内框宽度21英寸。上面是RMC(左侧)和集中的PSU,下面是1U3计算节点。隔壁是广达展台上的Yosemite(机箱)及Mono Lake(主板),这届峰会上OCP推出的提升计算密度利器,后面部分简要评述(来源:张广彬拍摄)

不过,BAT并不稀罕这个,因为天蝎项目的计算密度已经够高,由于整机柜架构的差异(后面会简要分析),短期内OCP服务器有Open Rack助力也赶不上。如果在21英寸机架里进一步增加服务器数量,双路服务器从1U2变成1U3,整机柜对供电的需求可能超标:假设80个(40×1U2)到120个(40×1U3),每节点按200W计,总能耗就从16kW增至24kW,不放满或掺杂冷存储节点的话实用意义又不大……毕竟,天蝎1.0规定的7~12KVA供电容量,对中国的绝大多数数据中心而言,已经不低。

3.5英寸硬盘外宽4英寸,长度接近6英寸。横向放,要加上SAS/SATA接口和拔插的活动空间,19英寸实际排不下3个,21英寸就很轻松;纵向放,21英寸可以放5个,19英寸则只能放4个,意味着最少20%的差距。

10

Ali Rack内部节点供电的折线臂(Cable Arm,从前端抽出节点更换硬盘等部件时维持电力供应)特写,周边可见前面横排的3个3.5英寸(希捷SATA)硬盘、后面的铜排和3个140mm风扇、两侧承载节点的L型隔板,都体现了天蝎2.0规范的特征(来源:张广彬拍摄)

于是,从2012年12月30日汇总原始需求,中间经过一次修订,2013年10月完成了天蝎2.0规范Rev 0.5,相对天蝎1.0的主要改进包括:

- 定义了2100mm、2300mm两种高度的机柜,实际可用空间分别为42U和46U;

- 重新定义了机柜的内部尺寸,统一为538mm(21英寸) 内框;

- 重新定义了每U的高度为46.5mm;

- 增强了机柜背板功能,并可实现热插拔维护;

- 服务器节点与机柜系统解耦,可实现服务器节点混插互换;

- 明确定义了风扇的尺寸,统一为140×38(mm)规格(每行3个),风扇窗高度4U,能够以1U为单位固定或调整上下位置。

12

天蝎1.0(左,百度北极1.0)与天蝎2.0(右,浪潮SmartRack 4.0)整机柜对比,可以明显看出内框宽度的差异(来源:张广彬拍摄)

内框宽度从19英寸到21英寸是个重大转折,说明标准的延续性不好,但是该出手时不能犹豫。经过机架和电源供应商如台达(Delta)与Facebook、Rackspace、Fidelity投资等客户的实践,21英寸内框机架的成本已经降低到BAT可以接受的程度,除了曾借助Supermicro方案的曙光暂时没跟上节奏,联想(Lenovo)、中兴(ZTE)等国内服务器OEM纷纷活跃起来。

11

46U的中兴天蝎2.0工程样机顶部特写,注意右上方的U位编号(来源:张广彬拍摄)

在这个过程中,天蝎联盟的构成也逐渐发生了改变。

从天蝎联盟到ODCC

2012年9月,中国电信加入天蝎项目,中国移动于2014年正式加入。

2013年4月10日召开的IDF 2013期间,陈晓建作为天蝎项目轮值主席亮相主题演讲。在天蝎项目的创始人中,陈晓建业界资历最深,又代表腾讯加入了OCP的孵化委员会,虽然是轮值主席,但大家都很乐于他继续干下去。然而,没过太久,陈晓建被调去腾讯云任副总经理,2015年3月又加入UCloud任高级副总裁——巧合的是,同月加入平安科技(深圳)有限公司任基础架构首席总监的朱永忠,距2014年8月调任百度大数据部高级总监也没多久。此前,朱永忠在百度系统部历任高级经理、副总监、总监、高级总监,对魏伟、陈国峰等人负责的北极项目(百度版天蝎)给予了很大的支持。

人事变动非外人可以参透,起码新岗位应该会从中受益。不过,这样的结果,多少折射出即使在BAT,基础设施工作也很难得到足够的重视。

另一方面,进入2014年之后,随着天蝎2.0的成熟,阿里巴巴的积极性大幅提升。至少在推动天蝎项目发展的意愿上,BAT难分高下,再加上电信和移动,原来的协调机制很难继续发挥作用。于是,负责制定标准的工信部电信研究院(中国信息通信研究院)也加入进来,2014年8月29日在北京召开的开放数据中心2014峰会上,宣布成立开放数据中心委员会,英特尔仍担任技术顾问。

21

22

23

24

开放数据中心委员会的人员构成

天蝎联盟变身开放数据中心委员会,工作覆盖范围也终于如最初设想般扩展到数据中心。开放数据中心委员会(Open Data Center Committee,ODCC)下设服务器、数据中心、测试认证三大工作组,服务器工作组可以视为天蝎项目的自然延续:百度张家军出任服务器工作组组长,阿里巴巴肖德芳也是天蝎项目创始人,担任天蝎整机柜服务器项目经理;中国移动唐华斌担任弹性服务器项目经理,目前负责多节点服务器项目。

在开放数据中心2014峰会上,审批发布了天蝎2.0规范Rev 1.0,在前面版本的基础上,主要改进多了一项:

- 增加了机柜顶部扩展功能,在交换机数量及节点数量无法满足要求时,可在机柜顶部安装固定交换机,总高度不超过2500mm。

规范的最后部分,还明确提出了对机房物理空间(包括电梯)的要求。

3333

数据中心工作组的人数比服务器工作组多一倍,腾讯IDC平台部技术发展中心副总监朱华担任组长,加上张海涛、周洛,占据半壁江山;其他3人是阿里巴巴陈炎昌、百度李孝众、英特尔张敬。测试认证工作组的5人分别来自腾讯以外的5家组织。

(原文标题:《BAT的故事(6):天蝎1.0到2.0的中国式标准之路》,有修改)
转自:http://dc.idcquan.com/zjgfwq/73817.shtml




闽公网安备 35010002000114号