NVIDIA Tesla P100 P40 P4 高性能运算GPU

GPU-赵文 · 发表于 2017-7-4 10:30

Tesla P100 是NVIDIA Tesla 加速计算平台的最新产品，能为全新级别的服务器提供支持，实现相当于数百个 CPU 服务器节点的性能。尽管当前数据中心融合了巨大的网络基础设施与众多相互连接的商用 CPU 服务器，可用于处理网络服务等大量交易型工作负载。但面对下一代人工智能和科学应用程序，这些数据中心的效率变得捉襟见肘。因为这些新型应用需要效率超高、速度极快的服务器节点。
借助采用五项突破性技术的全新 NVIDIA Pascal™ GPU 架构，Tesla P100 能发挥无与伦比的性能和效率来运行对计算能力要求最高的应用程序。
NVIDIA 联合创始人兼首席执行官黄仁勋 (Jen-Hsun Huang) 表示：“我们最大的科学挑战 — 治疗癌症、认识气候变化和打造智能机器 — 它们需要近乎无限的计算性能。借助各个层面的创新，我们从零开始设计了 Pascal GPU 架构。它是计算性能和效率的巨大进步，将帮助顶尖人才推动明天的进步。”
认知解决方案和 IBM 研究部高级副总裁 John Kelly III 博士表示：“我们正进入全新的计算时代，要充分实现人工智能和认知的好处，我们需要采用全新的方法来探索底层技术。NVIDIA GPU 和 OpenPOWER 技术的结合正在加速 Watson 对新技能的学习。包含 NVLink 支持的 IBM Power 架构和 NVIDIA Pascal 架构将共同进一步加速认知工作负载的性能并推动人工智能行业。”
五项架构突破
基于五项突破，Tesla P100 实现了前所未有的性能、可扩展性和编程效率：
NVIDIA Pascal 架构实现了巨大的性能飞跃 – 相比前代 NVIDIA Maxwell™ 解决方案，基于 Pascal 的 Tesla P100 解决方案在神经网络训练方面将性能提升 12 倍。
NVIDIA NVLink 实现了最高水平的应用程序扩展性 – NVIDIA NVLink™ 高速 GPU 互联技术在多颗 GPU 上扩展了应用程序，相比当前同级最佳解决方案，带宽实现 5 倍加速。1 借助 NVLink，可以连接八颗 Tesla P100 GPU，在同一个节点上将应用程序的性能最大化，IBM 在自有 POWER8 CPU 上实施了 NVLink 技术来加速 CPU 到 GPU 通讯。
16nm FinFET 实现了前所未有的能效 – Pascal GPU 拥有 153 亿个采用 16 纳米 FinFET 制造技术的晶体管，是世界上迄今为止最大的 FinFET 芯片。2 打造它的目的是为计算需求近乎无限的工作负载提供最快的性能和最佳的能效。
CoWoS 和 HBM2，适用于大数据工作负载 – Pascal 架构将处理器和数据封装到一起，实现了前所未有的计算效率。包含 HBM2 的芯片-晶圆-基底 (CoWoS) 是内存设计的创新方法，相比 Maxwell 架构提供了 3 倍的显存带宽，高达 720GB/s。
全新人工智能算法，实现了峰值性能 – 全新的半精度指令为深度学习提供了超过 21 Teraflops 的峰值性能。
Tesla P100 GPU 加速器为AMBER 分子动力学程序代码等一系列 HPC 和深度学习应用程序提供了全新水平的性能。相比 48 个配备双路 CPU的服务器节点，该代码在配备 Tesla P100 GPU 的单服务器节点上运行速度更快。3 训练大受欢迎的 AlexNet 深度神经网络需要 250 个双路 CPU 服务器节点才能抵得上八个 Tesla P100 GPU 的性能。4 相比 27 个双路 CPU 服务器，广泛使用的天气预报程序 COSMO 在八个 Tesla P100 GPU 上运行速度更快。
Tesla P100 是首个双精度性能和单精度性能分别超过 5 Teraflop 和 10 Teraflop 的加速器，在众多领域的处理性能和研究发现时间方面实现了巨大飞跃。
NVIDIA SDK更新
NVIDIA 还发布了针对全球最强劲的 GPU 计算开发平台 – NVIDIA SDK的一系列更新。
这些更新包括NVIDIA CUDA® 8。NVIDIA 并行计算平台的最新版本可以让开发者直接使用 Pascal 一系列强大的全新特性，包括统一内存和 NVLink。该版本还包括全新的图表分析库 nvGRAPH，后者可用于机器人路径规划、网络安全和物流分析，将 GPU 加速的应用扩展到大数据分析领域。
NVIDIA 还发布了 cuDNN version 5，一个 GPU 加速的深度神经网络基元库。cuDNN 5 可提供Pascal GPU 支持、循环神经网络 (用于视频和其他串行数据) 和用于医疗、油气和其他行业的额外增强特性。cuDNN 加速领先的深度学习框架，包括 Google 的 TensorFlow、加州大学伯克利分校的 Caffe、蒙特利尔大学的 Theano 和纽约大学的 Torch。这些又驱动 Amazon、Facebook 和 Google 等所用的深度学习解决方案的运行。
Tesla P100的参数
Tesla P100 GPU 加速器的参数包括：
5.3 Teraflop 双精度性能、10.6 Teraflop 单精度性能和 21.2 Teraflop 半精度性能，采用 NVIDIA GPU BOOST™ 技术
160GB/s 双向互联带宽，带有 NVIDIA NVLink
16GB CoWoS HBM2 堆栈显存
720GB/s 显存带宽，带有 CoWoS HBM2 堆栈显存
更强的可编程性，带有页面迁移引擎和统一内存
ECC保护，提高了可靠性
针对服务器优化，实现了最高的数据中心吞吐量和可靠性

P40基于高端大核心GP100，并且开启全部3840个流处理器(此前的Titan X只有3584个)，核心频率1303-1531MHz，FP32单精度浮点计算能力12TFlops，INT8(八位数据专用推理指令) 47TOPS，响应速度比CPU快45倍，搭配384-bit 24GB GDDR5显存，等效频率7.2Gbps，整卡功耗250W，被动散热。

　　Tesla P4的核心则是GTX 1080/1070同款的GP104，全部2560个流处理器，核心频率只有810-1063MHz，单精度性能5.5TFlops，INT8 22TOPS，搭配256-bit 6Gbps 8GB GDDR5显存，功耗50-75W，半高被动散热。

　　Tesla P40可提供非常高的深度学习工作负载处理能力，一台配备八块Tesla P40加速器的服务器在性能上可媲美140多台CPU服务器，同时成本节省超过65万美元。Tesla P4则可为超大规模数据中心提供极高的能效，一台配备单个Tesla P4的服务器可以取代13台CPU服务器，总体拥有成本可节省超过800%。

帐号		自动登录	找回密码
密码			注册

[显卡] NVIDIA Tesla P100 P40 P4 高性能运算GPU