NVIDIA Tesla P100 P4 P40 高性能运算GPU

GPU-赵文 · 发表于 2017-6-29 14:26

2016年4月5日—加州圣何塞—GPU 技术大会—NVIDIA 今日发布了史上最先进的超大规模数据中心加速器 NVIDIA® Tesla® P100 GPU。
Tesla P100 是NVIDIA Tesla 加速计算平台的最新产品，能为全新级别的服务器提供支持，实现相当于数百个 CPU 服务器节点的性能。尽管当前数据中心融合了巨大的网络基础设施与众多相互连接的商用 CPU 服务器，可用于处理网络服务等大量交易型工作负载。但面对下一代人工智能和科学应用程序，这些数据中心的效率变得捉襟见肘。因为这些新型应用需要效率超高、速度极快的服务器节点。
借助采用五项突破性技术的全新 NVIDIA Pascal™ GPU 架构，Tesla P100 能发挥无与伦比的性能和效率来运行对计算能力要求最高的应用程序。
NVIDIA 联合创始人兼首席执行官黄仁勋 (Jen-Hsun Huang) 表示：“我们最大的科学挑战 — 治疗癌症、认识气候变化和打造智能机器 — 它们需要近乎无限的计算性能。借助各个层面的创新，我们从零开始设计了 Pascal GPU 架构。它是计算性能和效率的巨大进步，将帮助顶尖人才推动明天的进步。”
认知解决方案和 IBM 研究部高级副总裁 John Kelly III 博士表示：“我们正进入全新的计算时代，要充分实现人工智能和认知的好处，我们需要采用全新的方法来探索底层技术。NVIDIA GPU 和 OpenPOWER 技术的结合正在加速 Watson 对新技能的学习。包含 NVLink 支持的 IBM Power 架构和 NVIDIA Pascal 架构将共同进一步加速认知工作负载的性能并推动人工智能行业。”
五项架构突破
基于五项突破，Tesla P100 实现了前所未有的性能、可扩展性和编程效率：
NVIDIA Pascal 架构实现了巨大的性能飞跃 – 相比前代 NVIDIA Maxwell™ 解决方案，基于 Pascal 的 Tesla P100 解决方案在神经网络训练方面将性能提升 12 倍。
NVIDIA NVLink 实现了最高水平的应用程序扩展性 – NVIDIA NVLink™ 高速 GPU 互联技术在多颗 GPU 上扩展了应用程序，相比当前同级最佳解决方案，带宽实现 5 倍加速。1 借助 NVLink，可以连接八颗 Tesla P100 GPU，在同一个节点上将应用程序的性能最大化，IBM 在自有 POWER8 CPU 上实施了 NVLink 技术来加速 CPU 到 GPU 通讯。
16nm FinFET 实现了前所未有的能效 – Pascal GPU 拥有 153 亿个采用 16 纳米 FinFET 制造技术的晶体管，是世界上迄今为止最大的 FinFET 芯片。2 打造它的目的是为计算需求近乎无限的工作负载提供最快的性能和最佳的能效。
CoWoS 和 HBM2，适用于大数据工作负载 – Pascal 架构将处理器和数据封装到一起，实现了前所未有的计算效率。包含 HBM2 的芯片-晶圆-基底 (CoWoS) 是内存设计的创新方法，相比 Maxwell 架构提供了 3 倍的显存带宽，高达 720GB/s。
全新人工智能算法，实现了峰值性能 – 全新的半精度指令为深度学习提供了超过 21 Teraflops 的峰值性能。
Tesla P100 GPU 加速器为AMBER 分子动力学程序代码等一系列 HPC 和深度学习应用程序提供了全新水平的性能。相比 48 个配备双路 CPU的服务器节点，该代码在配备 Tesla P100 GPU 的单服务器节点上运行速度更快。3 训练大受欢迎的 AlexNet 深度神经网络需要 250 个双路 CPU 服务器节点才能抵得上八个 Tesla P100 GPU 的性能。4 相比 27 个双路 CPU 服务器，广泛使用的天气预报程序 COSMO 在八个 Tesla P100 GPU 上运行速度更快。
Tesla P100 是首个双精度性能和单精度性能分别超过 5 Teraflop 和 10 Teraflop 的加速器，在众多领域的处理性能和研究发现时间方面实现了巨大飞跃。
NVIDIA SDK更新
NVIDIA 还发布了针对全球最强劲的 GPU 计算开发平台 – NVIDIA SDK的一系列更新。
这些更新包括NVIDIA CUDA® 8。NVIDIA 并行计算平台的最新版本可以让开发者直接使用 Pascal 一系列强大的全新特性，包括统一内存和 NVLink。该版本还包括全新的图表分析库 nvGRAPH，后者可用于机器人路径规划、网络安全和物流分析，将 GPU 加速的应用扩展到大数据分析领域。
NVIDIA 还发布了 cuDNN version 5，一个 GPU 加速的深度神经网络基元库。cuDNN 5 可提供Pascal GPU 支持、循环神经网络 (用于视频和其他串行数据) 和用于医疗、油气和其他行业的额外增强特性。cuDNN 加速领先的深度学习框架，包括 Google 的 TensorFlow、加州大学伯克利分校的 Caffe、蒙特利尔大学的 Theano 和纽约大学的 Torch。这些又驱动 Amazon、Facebook 和 Google 等所用的深度学习解决方案的运行。
Tesla P100的参数
Tesla P100 GPU 加速器的参数包括：
5.3 Teraflop 双精度性能、10.6 Teraflop 单精度性能和 21.2 Teraflop 半精度性能，采用 NVIDIA GPU BOOST™ 技术
160GB/s 双向互联带宽，带有 NVIDIA NVLink
16GB CoWoS HBM2 堆栈显存
720GB/s 显存带宽，带有 CoWoS HBM2 堆栈显存
更强的可编程性，带有页面迁移引擎和统一内存
ECC保护，提高了可靠性
针对服务器优化，实现了最高的数据中心吞吐量和可靠性
上市情况
全新 NVIDIA DGX-1™ 深度学习系统中基于 Pascal 的 NVIDIA Tesla P100 GPU 加速器将在 6 月全面上市。预计一线服务器厂商将从 2017 年初开始供应该产品。

帐号		自动登录	找回密码
密码			注册

[显卡] NVIDIA Tesla P100 P4 P40 高性能运算GPU