POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 7064|回复: 0
打印 上一主题 下一主题

[整机] 深度学习服务器整机方案 Deep Learning TESLA TITANX 8卡

[复制链接]
跳转到指定楼层
1#
发表于 2016-6-13 16:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式


北京思腾合力科技有限公司

联系人 温巍

联系电话13511075577

QQ499686668

Tesla K系列都是基于“开普勒”(Kepler)架构的高性能计算产品,其中采用GK110大核心的已有三款,而今天这款Tesla K80,从各个方面都进行了前所未有的增强。

首先,她的核心是新的GK210。

GK110核心第一次用于高性能计算是Tesla K20,只开启了2496个流处理器,经过一次修订后升级为GK110B,先后推出了2688个流处理器的增强版Tesla K20X、2880个流处理器的完整版Tesla K40,后者还提供了三个档次的核心频率。

GK210则是NVIDIA第一次对某个核心进行中途修改,最大的变化就是寄存器文件、一级缓存容量都翻了一番,分别来到512KB、128KB,不过整体架构没变,还是2880个流处理器、384-bit位宽,制造工艺也依然是台积电28nm,但晶体管数量理论上应该比71亿个更多了。

寄存器文件、一级缓存增大后,可以明显改进流处理器阵列内的数据吞吐能力,工作更高效,尤其适合高性能计算。这显然是一次针对性的重新设计。

可怕的是,Tesla K80一次就用了俩GK210核心,而上次的双芯计算卡还是Tesla K10,当时用的是俩小核心GK104。

不过可以理解的是,如此庞大的两个核心很难全速开动,每一个都只开启了15组流处理器阵列中的13组,也就是总共2496×2=4992个流处理器,相当于Tesla K20翻了一番。

核心频率也定得很低,只有562MHz,但是第一次支持GPU Boost动态加速了,最高可达875MHz。显存是两组384-bit 12GB GDDR5,总计达24GB,但频率也不是很高,只有5GHz。

这一切都是出于功耗的妥协。Tesla K20X/K20已经达到235W,而双芯的Tesla K80在一番折腾后,仍控制在了300W,并且保持了双插槽的身材,但需要使用被动散热,由系统风扇带走热量,主动散热版暂时没有。

性能方面自然可期,官方宣称FP32单精度、FP64双精度浮点性能最高分别可达2.91TFlops(万亿次浮点)、8.74TFlops(比例还是1:3),比此前提高了74%,但这只是最大加速理论性能,实际上会低一些。

1U标准机架内可以放入最多四块Tesla K80,双精度性能可超10TFlops。

根据情况不同,Tesla K80的效率提升幅度最好59%,最差2%。





北京思腾合力科技有限公司

联系人 温巍

联系电话13511075577

QQ499686668

NVIDIA精英级合作伙伴,全球最快超级深度学习单机,接受预定!!!



GTC2016已于美国加州当地时间4月8日成功落下帷幕,今年NVIDIA重燃深度学习热潮,为数据科学家和人工智能(AI)研究人员带来无限惊喜。NVIDIA在会上正式发布基于Pascal架构的Tesla P100显卡以及全球首款用于深度学习训练的超级计算机DGX-1,引发大量客户咨询。DGX-1产品会在6月份正式上市并面向部分客户发售。


  NVIDIA Pascal架构是专为学习、理解和模拟世界等对计算具有无穷需求而设计的引擎。Tesla P100是史上最强大的超大规模数据中心加速器,基于台积电 16nm FinFET工艺打造,并拥有高达153亿个晶体管,这个数量几乎是采用GM200大核心的GeForce Titan X的两倍!该卡拥有史无前例的5.3 Teraflops双精度性能(几乎是Tesla K40的4倍、AMD最为强大的计算卡FirePro S9170的2倍)、10.6 Teraflops单精度性能(对比之前Titan X的7 teraflops单精度提升了足足50%)和适用于深度学习的21.2 Teraflops半精度性能。只需少量几块,即可提供媲美几百台CPU服务器节点的强大性能,为癌症研究、气候模型建立、能源、人工智能等目前最为复杂的应用研究铺平道路。

Tesla P100突破性特性包括:

  - 全新Pascal 架构:提供5.3 Teraflops双精度和10.6 Teraflops单精度性能

  - NVLink:全球最快的高速互连技术,多GPU扩展,系统性能提升达5倍

  - CoWoS ® with HBM2:统一数据和计算整体封装,内存带宽可达前代解决方案的3倍

  - 页面迁移引擎:数据集打破GPU内存的物理限制,并行程序设计更简洁。

  深度学习仍是时下热点,也是GTC2016当仁不让的主角。今年NVIDIA在推出史上最强大的超大规模数据中心加速器的同时,还推出全球首款用于深度学习训练的超级计算机NVIDIA DGX-1。该款机型首次搭载了8块Tesla P100计算卡,其深度学习计算性能高达170 Teraflops,是搭载双路至强E5平台运算性能的56倍以上,平均学习时间也从150小时缩短到仅仅2个小时。

在DGX-1中采用了NVIDIA目前最为先进的技术:包括全新的NV-link接口,同时整个服务器搭载了7TB的SSD。据NVIDIA的联合创始人兼CEO黄仁勋说,DGX-1相当于250台双路CPU服务器节点运算性能总和,同时比一年前问世的 NVIDIA Maxwell架构四路解决方案快12倍以上,可谓以一当百。

  NVIDIA DGX-1软件堆栈专为最精确的深度神经网络(DNN)而设计,包含主流深度学习框架、NVIDIA 深度学习SDK、DIGITS GPU 培训系统、驱动和CUDA。强大的系统还提供container 创建与部署、系统更新以及应用资源库的云管理服务。相较前代GPU加速解决方案,整合所有软件功能在基于Pacal的Tesla GPU上运行,应用可提速12倍之多。

  一站式NVIDIA DGX-1系统提供快捷按照,从插上电源到开始深度学习研究仅需几分钟,部署快速轻松;系统提供更快速的高性能培训,加速并提高产能,缩短产品上市时间和系统宕机时间;软硬件支持提供NVIDIA 深度学习专业资源访问权,包括云管理资源、软件升级更新以及针对关键需求交付最佳方案,让投资利用率最大化。

  思腾合力在市场、销售和技术支持等多个层面和NVIDIA密切协作,结合自身多年丰富的工程经验和先进的制造技术,针对深度学习推出了多款机型,其中包括aiserver IW4200-8G,最多可支持支持8片M60/M40/K80/K40M GPU 卡;aiserver IW4200-4G,48GB显存容量,支持4片并行计算卡,以超高性能赢得深度学习应用客户的青睐。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-5-22 18:57

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表