NVIDIA Tesla M40 P100 深度学习加速卡

jbdl650 · 发表于 2016-12-14 13:57

§ 2015年11月10日,NVIDIA发布了一款端到端超大规模数据中心平台，该平台让 Web 服务公司能够为其浩繁的机器学习工作量加速。

§ 　　NVIDIA 超大规模加速器系列产品包含两款加速器。研究人员想要利用人工智能 (AI) 来为越来越多的应用提供处理动力，其中一款加速器让研究人员能够为这些应用中的每一个应用更快地开发和设计新的深度神经网络。另一款加速器是一款低功耗加速器，旨在将这些网络部署于整个数据中心。该系列加速器还包含一套 GPU 加速的库。

§ 　　所有这些加在一起，让开发者能够在超大规模数据中心内利用强大的 Tesla 加速计算平台来驱动机器学习，打造史无前例且基于人工智能的应用。

§ 　　NVIDIA 联合创始人兼首席执行官黄仁勋 (Jen-Hsun Huang) 表示：“人工智能竞赛正在进行。无论是从 PC、互联网还是从云计算的角度而言，机器学习都无疑是当今计算行业最重要的进展之一。它正在消费者云服务、汽车以及医疗等行业中掀起革命。”

§ 　　他指出：“机器学习对我们这代人来说是一大计算挑战。我们创造了 Tesla 超大规模加速器系列产品来使机器学习的速度提升 10 倍。这为数据中心节省了大量时间和成本。”

§ 　　这些全新的硬件与软件产品经过专门设计，可为竞相融入人工智能功能的海量 Web 应用加速。机器学习领域中的开创性进步让人们能够利用人工智能技术来打造更智能的应用与服务。

§ 　　人们正在利用机器学习来使语音识别变得更加准确。机器学习能够在视频或照片中实现对象识别与场景识别，能够添加标签以便于之后进行搜索。机器学习能够在视频或照片中实现人脸识别，即使是在人脸被部分遮挡的时候也能够识别。机器学习还能够为那些了解个人品味与兴趣的服务提供处理动力，这类服务可制定时间表、提供相关的新闻报道、以对话的口吻准确地对语音指令作出响应。

§ 　　机器学习使这类神奇的功能成为了可能。人们所面临的挑战是如何获得极高的超级计算性能来开发和训练越来越多的深度神经网络、如何获得足够的处理能力来为使用这类服务的消费者即时响应数十亿次查询。NVIDIA 超大规模加速器系列产品旨在为这些工作量加速并大幅提升数据中心的吞吐量。

§ NVIDIA Tesla 平台的这些新成员包括：

§ 　　NVIDIA Tesla M40 GPU– 性能最强的加速器，专为训练深度神经网络而设计

§ 　　NVIDIA Tesla M4 GPU– 低功耗的小巧型加速器，用于机器学习推理以及图像与视频处理的流式传输

§ 　　NVIDIA Hyperscale Suite – 一套丰富的软件，专为机器学习和视频处理而优化

§ NVIDIA Tesla M40 GPU 加速器

§ 　　数据科学家需要利用海量的数据来训练其深度神经网络以达到更高的整体准确度，NVIDIA Tesla M40 GPU 加速器让数据科学家在训练自己的深度神经网络时能够节省数天乃至数周的时间。其主要特性包括：

§ 　　专为机器学习而优化 – 与 CPU 相比可令训练时间缩短 8 倍 (在典型 AlexNet 训练中的对比结果为 1.2 天比 10 天)。

§ 　　可靠性高、专为全年不间断运行而打造 – 经过专门设计并在数据中心环境中经测试可提供极高的可靠性。

§ 　　可扩展的性能 – 对 NVIDIA GPUDirect 的支持使其能够快速训练多节点神经网络。

§ NVIDIA Tesla M4 GPU 加速器

§ 　　NVIDIA Tesla M4 加速器是一款低功耗 GPU，专为超大规模环境而打造并针对苛刻的高增长型 Web 服务应用而进行了优化。这些应用包括视频转码、图像与视频处理以及机器学习推理等等。主要特性包括：

§ 　　吞吐量更高 – 同时对多路视频流进行转码、增强以及分析的吞吐量最高可达 CPU 的 5 倍。

§ 　　功耗低 – 借助用户可选的功率配置文件，Tesla M4 仅消耗 50-75 瓦特的功率，在视频处理与机器学习算法方面最多比 CPU 节能 10 倍。

§ 　　外形小巧 – 刀卡式 PCIe 设计适合安装到超大规模数据中心系统所需的各种机箱内。

§ NVIDIA Hyperscale Suite

§ 　　全新的 NVIDIA Hyperscale Suite 包含针对开发者与数据中心经理的各种工具，这些工具专为部署 Web 服务而设计，其中包括：

§ 　　cuDNN – 业界最流行的算法软件，可处理用于人工智能应用的深度卷积神经网络。

§ 　　GPU 加速的 FFmpeg 多媒体软件 – 可利用应用广泛的 FFmpeg 软件来加速视频转码与视频处理。

§ 　　NVIDIA GPU REST Engine – 让人们能够轻松创建和部署高吞吐量低延迟的加速型 Web 服务，这些服务包括动态重调图像尺寸、搜索加速、图像分类以及其它任务。

§ 　　NVIDIA Image Compute Engine – 包含 REST API的 GPU 加速型服务，在重调图像尺寸方面能够比 CPU 快 5 倍。

§ Mesosphere 的支持

§ 　　业内的 Mesosphere 公司最近表示支持 Tesla 加速计算平台，该公司宣布，目前正与 NVIDIA 携手在 Apache Mesos 和 Mesosphere 数据中心操作系统 (DCOS) 中加入对 GPU 技术的支持。此举将让 Web 服务公司能够更轻松地为其下一代应用打造和部署加速的数据中心。

§ 上市情况

§ 　　Tesla M40 GPU 加速器和 Hyperscale Suite 软件将于今年晚些时候上市。Tesla M4 GPU 将于 2016 年第一季度上市。如需了解更多信息，敬请访问 NVIDIA Tesla 网站。

§ 　　通过此次新产品的发布，NVIDIA再一次拓展了Tesla在数据中心的应用领域。从针对高性能计算的K80、K40，到今年针对企业虚拟化的M60和M6，再到如今针对数据中心机器学习的产品。可以说，如今数据中心涉及的任何计算需求，NVIDIA都可以为其提供针对性的解决方案。■

§ NVIDIA宣称新卡的性能是上一代的两倍，因此在GRID 2.0系统中，支持的用户数，或者每用户性能，也都翻了一番。

§ Tesla M6 MXM卡主要面向刀片服务器，可大大提高计算密度。

§ GRID 2.0也带来了一些新的功能特性，比如新的软件将并发用户数提高了一倍，即每服务器最多128个，同时性能分配也更加均衡合理。

§ 　　最关键的是，GRID vGPU环境现在支持CUDA了，使得CUDA用户终于可以在单独一个GPU上完全虚拟化、冰法执行。

§ 　　操作系统支持也得到了改进，客户系统现在加入了Linux ，同时也支持Windows 10。

§ 　　最后，分辨率方面提高到了4K标准，每个虚拟机最多四台4K显示器，而此前只能达到2560×1600。

§ 　　GRID 2.0系统已经在数十家公司中测试，计划9月15日全面推出。

§ NVIDIA 2012年推出了第一代GRID，当时其中的计算卡是基于开普勒架构的Tesla K1/K2，分别基于GK104、GK107核心，而现在自然要升级到麦克斯韦架构了.

§ Tesla M60，采用了两颗GM204核心，配备2048×2＝4096个流处理器，每核心8GB GDDR5显存。作为一个全尺寸、双插槽计算卡，它的功耗为225-300W，具体取决于性能和散热配置(主动、被动散热都支持)。

§ 　　它支持32个并发用户，同时支持最多36条H.264 1080p/30fps视频流。

§ 　　这是麦克斯韦家族的第一款双芯卡，消费级领域的还没影儿呢。

§ 　　Tesla M6则是整个家族中第一次采用MXM样式，也就是形如笔记本显卡，搭载了单个GM204核心，但只开启16组计算单元中的12组，即拥有1536个流处理器(介于GTX 970/960)，同时搭配8GB GDDR5——基本上就是GTX 980M的复刻版。

§ 　　它最多仅支持16个并发用户、18条H.264 1080p/30fps视频流，但功耗也只有75-100W

NVIDIA发布了一款端到端超大规模数据中心平台，该平台能够为浩繁的机器学习工作量加速。

NVIDIA超大规模加速器系列产品包含两款加速器。研究人员想要利用人工智能(AI)来为越来越多的应用提供处理动力，其中一款加速器让研究人员能够为这些应用中的每一个应用更快地开发和设计新的深度神经网络。另一款加速器是一款低功耗加速器，旨在将这些网络部署于整个数据中心。该系列加速器还包含一套GPU加速的库。

所有这些加在一起，让开发者能够在超大规模数据中心内利用强大的Tesla加速计算平台来驱动机器学习，打造史无前例且基于人工智能的应用。

NVIDIA联合创始人兼首席执行官黄仁勋(Jen-Hsun Huang)表示：“人工智能竞赛正在进行。无论是从PC、互联网还是从云计算的角度而言，机器学习都无疑是当今计算行业最重要的进展之一。它正在消费者云服务、汽车以及医疗等行业中掀起革命。”

他指出：“机器学习对我们这代人来说是一大计算挑战。我们创造了Tesla超大规模加速器系列产品来使机器学习的速度提升10倍。这为数据中心节省了大量时间和成本。”

这些全新的硬件与软件产品经过专门设计，可为竞相融入人工智能功能的海量 Web 应用加速。机器学习领域中的开创性进步让人们能够利用人工智能技术来打造更智能的应用与服务。

人们正在利用机器学习来使语音识别变得更加准确。机器学习能够在视频或照片中实现对象识别与场景识别，能够添加标签以便于之后进行搜索。机器学习能够在视频或照片中实现人脸识别，即使是在人脸被部分遮挡的时候也能够识别。机器学习还能够为那些了解个人品味与兴趣的服务提供处理动力，这类服务可制定时间表、提供相关的新闻报道、以对话的口吻准确地对语音指令作出响应。

机器学习使这类神奇的功能成为了可能。人们所面临的挑战是如何获得极高的超级计算性能来开发和训练越来越多的深度神经网络、如何获得足够的处理能力来为使用这类服务的消费者即时响应数十亿次查询。NVIDIA超大规模加速器系列产品旨在为这些工作量加速并大幅提升数据中心的吞吐量。

NVIDIA Tesla 平台的新成员包括：

• NVIDIA® Tesla® M40 GPU-性能最强的加速器，专为训练深度神经网络而设计

• NVIDIA Tesla M4 GPU-低功耗的小巧型加速器，用于机器学习推理以及图像与视频处理的流式传输

• NVIDIA Hyperscale Suite-一套丰富的软件，专为机器学习和视频处理而优化

NVIDIA Tesla M40 GPU 加速器

数据科学家需要利用海量的数据来训练其深度神经网络以达到更高的整体准确度，NVIDIA Tesla M40 GPU加速器让数据科学家在训练自己的深度神经网络时能够节省数天乃至数周的时间。其主要特性包括：

• 专为机器学习而优化-与CPU相比可令训练时间缩短8倍(在典型AlexNet训练中的对比结果为1.2天比10天)。

• 可靠性高、专为全年不间断运行而打造-经过专门设计并在数据中心环境中经测试可提供极高的可靠性。

• 可扩展的性能-对NVIDIA GPU Direct的支持使其能够快速训练多节点神经网络。

NVIDIA Tesla M40 GPU 加速器

NVIDIA Tesla M4加速器是一款低功耗GPU，专为超大规模环境而打造并针对苛刻的高增长型Web服务应用而进行了优化。这些应用包括视频转码、图像与视频处理以及机器学习推理等等。主要特性包括：

• 吞吐量更高-同时对多路视频流进行转码、增强以及分析的吞吐量最高可达CPU的5倍。

• 功耗低-借助用户可选的功率配置文件，TeslaM4仅消耗50-75瓦特的功率，在视频处理与机器学习算法方面最多比CPU节能10倍。

• 外形小巧-刀卡式PCIe设计适合安装到超大规模数据中心系统所需的各种机箱内

NVIDIA Hyperscale Suite

全新的 NVIDIA Hyperscale Suite包含针对开发者与数据中心经理的各种工具，这些工具专为部署Web服务而设计，其中包括：

• cuDNN-业界最流行的算法软件，可处理用于人工智能应用的深度卷积神经网络。

• GPU加速的FFmpeg多媒体软件-可利用应用广泛的 FFmpeg 软件来加速视频转码与视频处理。

• NVIDIA GPU REST Engine-让人们能够轻松创建和部署高吞吐量低延迟的加速型Web服务，这些服务包括动态重调图像尺寸、搜索加速、图像分类以及其它任务。

• NVIDIA Image Compute Engine-包含REST API的GPU加速型服务，在重调图像尺寸方面能够比 CPU 快5倍。

Mesosphere 的支持

业内的Mesosphere公司最近表示支持Tesla加速计算平台，该公司宣布，目前正与NVIDIA携手在Apache Mesos和Mesosphere数据中心操作系统(DCOS)中加入对GPU技术的支持。此举能够更轻松地为其下一代应用打造和部署加速的数据中心。

写在后面

数据量如今被越来越多的人重视，说到底并不是之前不存在数据，而是数据的激增让人们对其无法不重视，NVIDIA全新的超大规模加速器可以帮助用户在处理数据时缩短时间，并且还能为Web数据中心提升其机器学习的吞吐量，从而使得用户的机器变“聪明”。

NVIDIA 推出全球最高效能的 NVIDIA Tesla K80 双 GPU 加速器，专为机器学习、资料分析、科学和高效能运算 (HPC) 等广泛应用设计，并为 NVIDIA Tesla 加速运算平台增添最新旗舰级產品。

Tesla K80 双 GPU 加速器是 Tesla 加速运算平台的全新旗舰级產品。Tesla 加速运算平台是针对大型科学探索和深入分析的顶尖运算平台，其中结合全球最快速的 GPU 加速器、业界广泛使用的 CUDA 平行运算模型以及完整的软体开发者、软体商和资料中心系统OEM的產业体系支援。

相较于前一代產品 Tesla K40 GPU 加速器，Tesla K80双 GPU 加速器可提供将近两倍的效能和双倍记忆体频宽。这款强劲加速器的效能更可比现今最快的 CPU 高 10 倍，并能在数百种复杂的数据分析和大型运算密集的科学运算应用中远胜 CPU 的运算效能。

Tesla K80 双 GPU 加速器的主要特色包括：

一卡双 GPU - 针对专为多重 GPU 设计的应用软体提供双倍传输量。

24GB 超快 GDDR5 记忆体 - 每颗 GPU 有 12GB 记忆体，比 Tesla K40 GPU 多两倍，可让使用者处理大两倍的资料集分析。

480GB/s 记忆体频宽 - 相较于 Tesla K10 加速器，Tesla K80 增加的资料传输量可让资料科学家仅用以往一半的时间来处理 PB 级的资讯，并针对能源探勘、影音和影像处理及资料分析应用软体进行最佳化。

4,992 CUDA?平行运算核心 - 可比仅用 CPU 运算提升高达 10 倍应用加速效能。

动态 NVIDIA GPU Boost 技术 - 可根据个别应用的特性灵活地提升 GPU 时脉，提供最高效能。

动态平行运算架构 - 可让 GPU 执行绪灵活地大量產出新的执行绪，让使用者可用快速简易的方法来分析关联式和动态的资料结构。

帐号		自动登录	找回密码
密码			注册

[显卡] NVIDIA Tesla M40 P100 深度学习加速卡

相关帖子