深度学习服务器整机方案 Deep Learning TESLA TITANX 8卡

eneiwstt · 发表于 2016-6-13 16:21

北京思腾合力科技有限公司

联系人温巍

联系电话13511075577

QQ499686668

Tesla K系列都是基于“开普勒”(Kepler)架构的高性能计算产品，其中采用GK110大核心的已有三款，而今天这款Tesla K80，从各个方面都进行了前所未有的增强。

首先，她的核心是新的GK210。

GK110核心第一次用于高性能计算是Tesla K20，只开启了2496个流处理器，经过一次修订后升级为GK110B，先后推出了2688个流处理器的增强版Tesla K20X、2880个流处理器的完整版Tesla K40，后者还提供了三个档次的核心频率。

GK210则是NVIDIA第一次对某个核心进行中途修改，最大的变化就是寄存器文件、一级缓存容量都翻了一番，分别来到512KB、128KB，不过整体架构没变，还是2880个流处理器、384-bit位宽，制造工艺也依然是台积电28nm，但晶体管数量理论上应该比71亿个更多了。

寄存器文件、一级缓存增大后，可以明显改进流处理器阵列内的数据吞吐能力，工作更高效，尤其适合高性能计算。这显然是一次针对性的重新设计。

可怕的是，Tesla K80一次就用了俩GK210核心，而上次的双芯计算卡还是Tesla K10，当时用的是俩小核心GK104。

不过可以理解的是，如此庞大的两个核心很难全速开动，每一个都只开启了15组流处理器阵列中的13组，也就是总共2496×2＝4992个流处理器，相当于Tesla K20翻了一番。

核心频率也定得很低，只有562MHz，但是第一次支持GPU Boost动态加速了，最高可达875MHz。显存是两组384-bit 12GB GDDR5，总计达24GB，但频率也不是很高，只有5GHz。

这一切都是出于功耗的妥协。Tesla K20X/K20已经达到235W，而双芯的Tesla K80在一番折腾后，仍控制在了300W，并且保持了双插槽的身材，但需要使用被动散热，由系统风扇带走热量，主动散热版暂时没有。

性能方面自然可期，官方宣称FP32单精度、FP64双精度浮点性能最高分别可达2.91TFlops(万亿次浮点)、8.74TFlops(比例还是1:3)，比此前提高了74％，但这只是最大加速理论性能，实际上会低一些。

1U标准机架内可以放入最多四块Tesla K80，双精度性能可超10TFlops。

根据情况不同，Tesla K80的效率提升幅度最好59％，最差2％。

北京思腾合力科技有限公司

联系人温巍

联系电话13511075577

QQ499686668

NVIDIA精英级合作伙伴，全球最快超级深度学习单机，接受预定！！！

GTC2016已于美国加州当地时间4月8日成功落下帷幕，今年NVIDIA重燃深度学习热潮，为数据科学家和人工智能(AI)研究人员带来无限惊喜。NVIDIA在会上正式发布基于Pascal架构的Tesla P100显卡以及全球首款用于深度学习训练的超级计算机DGX-1，引发大量客户咨询。DGX-1产品会在6月份正式上市并面向部分客户发售。

　　NVIDIA Pascal架构是专为学习、理解和模拟世界等对计算具有无穷需求而设计的引擎。Tesla P100是史上最强大的超大规模数据中心加速器，基于台积电 16nm FinFET工艺打造，并拥有高达153亿个晶体管，这个数量几乎是采用GM200大核心的GeForce Titan X的两倍!该卡拥有史无前例的5.3 Teraflops双精度性能(几乎是Tesla K40的4倍、AMD最为强大的计算卡FirePro S9170的2倍)、10.6 Teraflops单精度性能(对比之前Titan X的7 teraflops单精度提升了足足50%)和适用于深度学习的21.2 Teraflops半精度性能。只需少量几块，即可提供媲美几百台CPU服务器节点的强大性能，为癌症研究、气候模型建立、能源、人工智能等目前最为复杂的应用研究铺平道路。

Tesla P100突破性特性包括:

　　- 全新Pascal 架构：提供5.3 Teraflops双精度和10.6 Teraflops单精度性能

　　- NVLink：全球最快的高速互连技术，多GPU扩展，系统性能提升达5倍

　　- CoWoS ® with HBM2：统一数据和计算整体封装，内存带宽可达前代解决方案的3倍

　　- 页面迁移引擎：数据集打破GPU内存的物理限制，并行程序设计更简洁。

　　深度学习仍是时下热点，也是GTC2016当仁不让的主角。今年NVIDIA在推出史上最强大的超大规模数据中心加速器的同时，还推出全球首款用于深度学习训练的超级计算机NVIDIA DGX-1。该款机型首次搭载了8块Tesla P100计算卡，其深度学习计算性能高达170 Teraflops，是搭载双路至强E5平台运算性能的56倍以上，平均学习时间也从150小时缩短到仅仅2个小时。

在DGX-1中采用了NVIDIA目前最为先进的技术：包括全新的NV-link接口，同时整个服务器搭载了7TB的SSD。据NVIDIA的联合创始人兼CEO黄仁勋说，DGX-1相当于250台双路CPU服务器节点运算性能总和，同时比一年前问世的 NVIDIA Maxwell架构四路解决方案快12倍以上，可谓以一当百。

　　NVIDIA DGX-1软件堆栈专为最精确的深度神经网络(DNN)而设计，包含主流深度学习框架、NVIDIA 深度学习SDK、DIGITS GPU 培训系统、驱动和CUDA。强大的系统还提供container 创建与部署、系统更新以及应用资源库的云管理服务。相较前代GPU加速解决方案，整合所有软件功能在基于Pacal的Tesla GPU上运行，应用可提速12倍之多。

　　一站式NVIDIA DGX-1系统提供快捷按照，从插上电源到开始深度学习研究仅需几分钟，部署快速轻松;系统提供更快速的高性能培训，加速并提高产能，缩短产品上市时间和系统宕机时间;软硬件支持提供NVIDIA 深度学习专业资源访问权，包括云管理资源、软件升级更新以及针对关键需求交付最佳方案，让投资利用率最大化。

　　思腾合力在市场、销售和技术支持等多个层面和NVIDIA密切协作，结合自身多年丰富的工程经验和先进的制造技术，针对深度学习推出了多款机型，其中包括aiserver IW4200-8G，最多可支持支持8片M60/M40/K80/K40M GPU 卡;aiserver IW4200-4G，48GB显存容量，支持4片并行计算卡，以超高性能赢得深度学习应用客户的青睐。

帐号		自动登录	找回密码
密码			注册

[整机] 深度学习服务器整机方案 Deep Learning TESLA TITANX 8卡

相关帖子