找回密码
 注册

QQ登录

快捷登录

新浪微博登陆

搜索
CDD 法语助手

全球最快的超级计算机IBM走鹃 浮点运算性能突破1000万亿次

17
回复
1608
查看
[ 复制链接 ]
头像被屏蔽

新浪微博达人勋

提示: 该帖被管理员或版主屏蔽
2008-6-27 07:46:31

新浪微博达人勋

创新的混合型设计

   从架构设计上来看,和许多传统超级计算机最大的不同之处在于Roadrunner是一种混合型系统(hybrid supercomputer),使用两种不同的处理器架构:X86架构的AMD双核Opteron(皓龙)处理器和Power架构IBMCell处理器。通常的超级计算机一般都是只用一种处理器,这样才便于设计和编程使用。
   作为一台超级计算机,Roadrunner也可以被认为是一套带有CELL加速器的Opteron集群。应该说,Opteron是一款不错的通用型处理器,在高性能计算集群中比较流行,也容易编程。但仅依靠Opteron自身的力量,其性能不足以达到千万亿次每秒的水平。建造这样一套系统,需要至少多20倍的处理器,而且对体积、功耗、散热等方面的要求也极高。这也是为什么要使用Cell处理器的原因之一。从性能上来看,CELL比Opteron要强近30倍,但在其他方面如应用开发、操作系统运行、与其他计算机节点通信等方面要弱。也就是说仅仅依靠CELL处理器要构建这种规模的超级计算机也是不现实的。

    因此,Roadrunner整合了AMD的双核Opteron处理器和全新的IBM Cell(PowerXCell8i)加速处理器。Roadrunner总共拥有130536个计算核心(比最初计划的约1760000个少很多),包括12960颗改进版IBMCell核心以及6948颗双核AMD Opteron处理器。从功能上看,皓龙处理器负责标准的运算处理如文件系统的I/O,而PowerXCell芯片主要加速数学和CPU密集型运算。这跟AMD的Torrenza开放平台的思路非常接近。从性能上看,正是这些CELL处理器承担了大多数计算重任——安装在计算刀片中的6000多个Opteron处理器仅贡献了44万亿次每秒(teraflops)的性能,而12000多颗CELL芯片贡献了1332万亿次,注意,这些数值指的是峰值性能。其稳定持续的Linpack结果是1026万亿次浮点运算,刚好突破1千万亿次的门槛。

   由于大部分计算性能是由高性能CELL处理器提供的,所以系统的总体节能效果非常好。根据IBM,Roadrunner的总功耗是390万瓦特(megawatts),其每瓦特性能是376 megaflops,比基于PowerPC的蓝色基因/P(350megaflops/watt)还要好。当前,基于至强处理器、节能效果最好的超级计算机集群的能效也只不过是大约每瓦150 megaflops。
2008-6-27 07:49:48

使用道具 举报

新浪微博达人勋

七年研发历程

    RoadRunner由洛斯阿拉莫斯国家实验室的AndrewWhite博士和IBM的DonGrice博士领导团队合作研制成功。Roadrunner的研发历时了7年之久,从2002年开始研发,2006年开始联机。由于采用了很多创新设计和复杂的结构,直到2008年才全部完成。

阶段1

   第一阶段是建立一个标准的基于Opteron处理器的集群系统,并借此评估下一步继续扩容和向混合型版本转变的可行性。在这一阶段,Roadrunner达到了71万亿次每秒的性能,而且自2006年起就在Los Alamos实验室投入运行,用于尖端武器模拟。即便是在这一阶段,Roadrunner就已经是一台“可怕”的超级计算机了,在当时的全球最新超级计算机TOP500中可以排进前10位。

阶段2

    第二阶段就是“AAIS”(Advanced Architecture InitialSystem)计划,在原有系统的基础上,使用老版本的CELL处理器建立了一个小型的混合型机器。这一阶段主要用于为混合结构建立原型应用。它在2007年1月联机上线。

阶段3

    第三阶段的目标是达到超过1petaflops的稳定性能。在设计中加入了更多的Opteron节点和新的PowerXCell 处理器。这些PowerXCell处理器比第二阶段中使用的CELL处理器在性能上要强5倍。Roadrunner在IBM纽约州的Poughkeepsie研究中心最终完工,在那里,当它在2008年5月25日进行第四次测试时,突破了1 petaflops的性能门槛。这套完整的系统将于2008年夏季运送至在最终地LosAlamos 实验室,在那里会进行应用软件调试,预计到2009年会最终完成。
2008-6-27 07:50:33

使用道具 举报

新浪微博达人勋

Roadrunner的硬件构造

   Roadrunner系统由18个CU(connectunits,连接单元)组成。每个CU包括180个计算节点,一个有288端口InfiniBandDDR交换机(Voltaire的20GB/秒InfiniBand交换机),在整个系统中实现光纤通路互连。每一个计算节点是一个"TriBlade" 刀片系统,由一个双路双核Opteron的LS21刀片和两个双路QS22CELL刀片连在一起。在内部,每个Opteron内核与一个CELL芯片通过一个专有的PCIe连在一起。CU中节点之间的通信全通过InfiniBand,而系统与2 petabytes外部存储之间的通信采用的是10GbE(万兆以太网),存储系统由Panasas提供。

TriBlade

   逻辑上看,一个TriBlade包括带有16GB内存的两个双核Opteron处理器和带有16GB内存的4颗PowerXCell8i芯片。从物理上看,一个TriBlade包括一个LS21Opteron刀片,一个扩展刀片,两个QS22CELL刀片。LS21有两个1.8GHz的双核Opteron处理器和16GB内存,每个CPU有4GB内存。每个QS22有两颗PowerXCell8i芯片,主频为3.2GHz,带有8GB内存,同样每个CPU有4GB内存。扩展刀片通过四块PCIex8卡把两块QS22与LS21连在一起,每个QS22有两个连接。它还通过一个Infiniband 4xDDR卡实现与外部的连接。三个TriBlade装进一个BladeCenter H机箱。
点击看大图
CU

    一个CU由装满TriBlade的60个BladeCenterH组成,也就是总共有180个TriBlade。所有的TriBlade都和一个288端口的Voltaire ISR2012 Infiniband交换机连在一起。每个CU可以通过12个System x3755访问Panasas文件系统。CU的系统信息如下:

360个双核Opteron,带有 2.88 TiB RAM
720个双核PowerXCell 8i,带有2.88 TiB RAM
12个带双万兆以太网的System x3755
288端口 Voltaire ISR2012交换机,带有192 Infiniband 4x DDR连接 (180 TriBlades 和12个 I/O节点)

Roadrunner 集群

    最终的集群由18个CU组成,通过另外8个 ISR2012 第二层交换机连在一起。对于每个第二层交换机,每个CU通过12个uplinks 连接,这样总共有96个uplink连接。总个的Roadrunner 集群包含:

6,480 Opteron核心,51.8 TiB RAM (在3,240 LS21 刀片中)
12,960 Cell 核心,51.8 TiB RAM (在6,480 QS22 刀片中)
216 System x3755 I/O 节点
26 288-port ISR2012 Infiniband 4x DDR 交换机
296 机柜,占地面积约557平方米
390万瓦特电耗
2008-6-27 07:51:15

使用道具 举报

新浪微博达人勋

软件释放硬件潜能

   尽管硬件设计上是很奇特的,但由于在软件方面做了大量的工作,使得应用和开发变得简化。IBM Roadrunner首席设计师DonGrice相信,多核、异构计算是未来趋势所在,至少在未来10年内是如此。不过,他也认为,释放硬件性能的关键在于要开发出可以充分利用所有处理性能的软件。

    Roadrunner成了全球第一台配置Cell处理器的混合式超级计算机,也使得它需要三种不同的编程工具,程序员们也必须仔细考虑如何让十几个颗核心如何高效率地同时运行。

   IBM使用了其内部开发的软件开发工具套件(SDK)和开源软件来充当Roadrunner的应用平台。这一软件模式基于标准的MPI,每一个MPI任务使用了一个Opteron核心和一个CELL处理器。IBM的SDK DaCS库在CELL和Opteron之间实现了底层的协作,而在外层,RedHat Linux 和xCAT 集群管理软件提供了应用的操作环境。

    要把这些混合型机器的性能释放出来,系统内存优化是一个非常关键的因素。“这看起来和我们当初从共享内存转向分布式内存的感觉非常相似,”Grice谈道,“现在我们需要解决内存带宽wall和异构核心的问题。”

   Grice承认,他们已经建立的软件模式只是构建易编程、混合型系统(如Roadrunner)的第一步。当你要把多种计算技术结合在一起(异构指令集heterogeneous instruction sets, 多核处理器multicore processors,向量SIMD单元vector SIMD units, 局部存储local memory stores, explicit DMA,片上芯片/片上内存网络on-chip CPU/memory networks, 远程加速器remote accelerators和集群计算clustercomputing),开发人员就需要一个框架来保证不同层面硬件的独立性。在后续的版本中,IBM会引入新的编程语言和编译器/runtime技术。

小结:超级计算机性能十年增长1000倍

   超级计算机性能每大约十年增加1000倍,Roadrunner再次印证了这一点,让计算机从TFlops进入了PFlops时代,而接下来将是EFlops、ZFlops、YFlops和XFlops——10的27次方。可见,超级计算机性能的发展速度已经快于摩尔定律。这也使得HPC业界和用户需要不断地思考:有哪些应用可以运行在这些顶级的系统上面?更强的性能意味着你在进行计算机模拟时可以获得更高的精度,运算某一任务的时间更短。正如Grice所言,“一项需要Roadrunner运行一周来完成的工作,在10年前的一台机器上可能要跑上20年。”

   HansMeuer教授根据对TOP500历史数据分析后预测说,到2015年,也就是8年后,TOP500排行榜中将全部是千万亿次系统!第一台Exaflop/s(1Exaflop/s等于100万Teraflop/s)计算机也将在2019年出现在TOP500上。

    事实是否如此,让时间来证明吧!
2008-6-27 07:51:40

使用道具 举报

新浪微博达人勋

科技发展真是日新月异呀,想当初达到Teraflop量级的时候都感觉了不得了,现在居然达到了petaflop得量级!
2008-6-27 08:16:59

使用道具 举报

新浪微博达人勋

原帖由 rosyhorse 于 2008-6-27 09:16 发表
科技发展真是日新月异呀,想当初达到Teraflop量级的时候都感觉了不得了,现在居然达到了petaflop得量级!



哎~~~~~~~
性能是很N
但是苦了我们这些写程序的人啊~~~~~~~
异构多核处理器下 写程序很很很~~~~~~~~~~~~~~艰难
2008-6-27 08:19:15

使用道具 举报

新浪微博达人勋

原帖由 kok 于 2008-6-27 09:19 发表



哎~~~~~~~
性能是很N
但是苦了我们这些写程序的人啊~~~~~~~
异构多核处理器下 写程序很很很~~~~~~~~~~~~~~艰难

哈,科技越发达,从事科技的人就越累。精神支持。。。
2008-6-27 08:28:16

使用道具 举报

新浪微博达人勋

原帖由 rosyhorse 于 2008-6-27 09:28 发表

哈,科技越发达,从事科技的人就越累。精神支持。。。


只有这样才好找工作
俺就是IT界的一民工
:em0004:
2008-6-27 08:32:51

使用道具 举报

新浪微博达人勋

原帖由 kok 于 2008-6-27 09:32 发表


只有这样才好找工作
俺就是IT界的一民工
:em0004:


哈,让俺想起了俺们那会儿流行的一句话:航天老农,一身李宁(因为就爱发李宁服装,连那里的清洁工都能发好几套)
2008-6-27 08:43:55

使用道具 举报

新浪微博达人勋

原帖由 rosyhorse 于 2008-6-27 09:43 发表


哈,让俺想起了俺们那会儿流行的一句话:航天老农,一身李宁(因为就爱发李宁服装,连那里的清洁工都能发好几套)



俺现在就有一套李宁的运动装
完了 和清洁工一个级别了
2008-6-27 12:00:38

使用道具 举报

新浪微博达人勋

突破1000万亿次,是啥概念,貌似很强
2008-6-27 13:07:11

使用道具 举报

新浪微博达人勋

想起了46年那个占三间大瓦房,每秒计算5000次的计算机了。。。
2008-6-27 14:15:34

使用道具 举报

新浪微博达人勋

原帖由 eskimo331 于 2008-6-27 14:07 发表
突破1000万亿次,是啥概念,貌似很强



那么,超过1 petaflop/s是个什么概念呢?粗略地说相当于大约10万台笔记本电脑。美国国家核安全局局长ThomasAgostino打了个形象的比喻:如果让全世界60亿人每天24小时、每周7天执行纯手工计算,那么需要46年的时间才能完成Roadrunner一天的工作量。
2008-6-28 16:27:54

使用道具 举报

新浪微博达人勋

原帖由 rosyhorse 于 2008-6-27 15:15 发表
想起了46年那个占三间大瓦房,每秒计算5000次的计算机了。。。



半个世纪过去了
人类总得有点发展
于是 同样体积的东西出现了
但是性能 hoho 不可同日而语了
2008-6-28 16:29:45

使用道具 举报

12下一页
您需要登录后才可以回帖 登录 | 注册 新浪微博登陆

本版积分规则

返回顶部