对于国防机关、情报机关和国家安全机关来说,消化海量数据是一件日益繁重的工作。他们需要快速分析陆空情况,以便评估战场、确保环境安全,以及决定何时与如何部署人员或人道援助。file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml/wps5C98.tmp.png
目标检测挑战人工智能技术或许是协助这些机关消化来自众多来源的海量数据的关键。为了从这些数据中获得深刻见解,这些机关逐渐采用由 GPU 驱动的深度学习技术,以及可以机器速度从原始数据中识别相关内容和模式的算法。GPU:现代人工智能的引擎NVIDIA 解决方案架构师 Jon Barker 最近在地理空间情报论坛年会上,向来自国防机关、情报机关和国家安全机关的众多人士表示,“GPU 是现代 AI 的引擎”(请参阅“通过 GPU 加快人工智能的发展:新型计算模型”)。这项活动的主办单位是美国地理空间情报基金会,它是推广地图和海图绘制等地理空间情报 (GEOINT) 工作的非营利机构。Barker 介绍了嵌入式 GPU 系统上的深度学习如何以超越人类能力的速度和精确度,在高分辨率的航拍图中侦查、分类和追踪物体。他说,在出现人道主义危机之际,增强军事目标识别、绘制基础设施地图、搜救任务和提供援助的能力,可让这项技术有更广泛的应用范围。将深度学习技术用于救援使用深度学习方法需要利用大量训练图像,其中不同种类的物体(例如车辆或建筑物)都已加上标签。这些图像用于训练人工神经网络,使其能够在前所未见的新图像示例中准确检测物体。Barker 说,通过数十亿个可训练的参数,识别准确率在去年急增到 95% 以上,而在 2010 年仅接近 70%。2015 年,微软研究人员使用 GPU 在被誉为图像识别标杆的 ImageNet 上取得创纪录的结果。微软的 152 层神经网络(较仅次于它的系统又深了近五倍)可在 1,000 种预定义的类别中对图像进行正确分类,达到高于 96% 的正确率。通过使用 GPU 创建强大的神经网络,引发人工智能的复兴潮,进而出现此项突破性进展。GPU 还带来了卓越的计算速度。对于国防单位来说,可是不能浪费任何一点时间的。一台搭载有四个 NVIDIA Tesla M40 GPU 加速器的服务器可将 ImageNet 数据集上的 AlexNet 的训练时间缩短为一天,而在使用双 GPU 的服务器上,训练时间接近两周。GPU 架构也具备充足的调整弹性,能够应用到这些单位面临的各种场景中。各种开源工具和 cuDNN 等库都可用于自定义设计资源,在时间紧迫的情况下,可以在任何武装力量就位之前,利用紧凑的预算尽早布置第一道防线,还能预测结果。如需了解有关“深度学习技术用于国防单位的最新进展”的更多信息,请单击此处观看我们录制的近期在线研讨会。 | P100 for PCIe-Based
Servers | P100 for NVLink-Optimized Servers | Double-Precision Performance | 4.7 TeraFLOPS | 5.3 TeraFLOPS | Single-Precision Performance | 9.3 TeraFLOPS | 10.6 TeraFLOPS | Half-Precision Performance | 18.7 TeraFLOPS | 21.2 TeraFLOPS | NVIDIA NVLink™ Interconnect Bandwidth | - | 160 GB/s | PCIe x16 Interconnect Bandwidth | 32 GB/s | 32 GB/s | CoWoS HBM2 Stacked Memory Capacity | 16 GB or 12 GB | 16 GB | CoWoS HBM2 Stacked Memory Bandwidth | 732 GB/s or 549 GB/s | 732 GB/s | Enhanced Programmability with Page Migration Engine | file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml/wps5C99.tmp.jpg | file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml/wps5C9A.tmp.jpg | ECC Protection for Reliability | file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml/wps5CAB.tmp.jpg | file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml/wps5CAC.tmp.jpg | Server-Optimized for Data Center Deployment | file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml/wps5CAD.tmp.jpg | file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml/wps5CAE.tmp.jpg |
强大的硬件需要有超棒的软件相互搭配。为帮助数据科学家和开发人员充分利用深度学习领域巨大的发展机会,我们今天在国际超级计算机大会 ISC16 上宣布为 NVIDIA 深度学习软件平台推出三项新功能。 NVIDIA DIGITS 4、CUDA 深度神经网络库 (cuDNN) 5.1 和全新的 GPU 推理引擎 (GIE) 这三项强大的工具,可让数据科学家和开发人员更轻松地在我们的平台上建立解决方案。 NVIDIA DIGITS NVIDIA DIGITS 4 推出全新的物体检测工作流程,可让数据科学家训练深度神经网络,在海量图片中找出面孔、行人、交通标志、车辆及其他物体。此工作流程有助于打造高级深度学习解决方案,例如从卫星影像中追踪物体、保安监视系统、高级驾驶员辅助系统和医疗诊断筛查。 研究人员在训练深度神经网络时,必须不断调整各种参数,以便受训练的模型达到超高的精度。DIGITS 4 可自动调整多项参数来训练神经网络,从而大幅减少达到超高精度解决方案所需的时间。 NVIDIA 开发人员计划的会员本周起可免费下载 DIGITS 4 发行候选版本。有关详情,请访问 DIGITS 网站。 cuDNN NVIDIA cuDNN 提供所有领先的深度学习框架所采用的深度学习高性能构建模块。5.1 版则是加快了训练牛津大学的 VGG 及荣获 2016 ImageNet 大赛冠军的 Microsoft ResNet 等深度神经网络的速度。 每个新版本的 cuDNN 都比之前版本的性能有了进一步的发展,从而加快了深度学习神经网络与机器学习算法向前发展的脚步。 NVIDIA 开发人员计划的会员今日起可免费下载 cuDNN 5.1 发行候选版本。如需了解详情和下载软件,请访问 cuDNN 网站。 GIE GPU 推理引擎是适用于生产环境的高性能深度学习推理解决方案。相较于目前普遍用于推理的仅采用 CPU 的系统,GIE 可以优化训练后的深度神经网络,运行时效能颇高,在 NVIDIA Tesla M4 GPU 上将每瓦效能提高 16 倍。 在部署深度学习应用程序时,完成推理任务所需的时间和电量是其两大考量重点,决定了用户体验的质量和部署应用程序的成本。 云服务提供商在使用 GIE 后,可以提高生产力,更有效率地在其超大规模数据中心生产环境中处理图片、视频及其他数据,而汽车制造商和嵌入式解决方案提供商可在其低功率平台部署强大的高性能神经网络模型。 有关详情,请访问 NVIDIA GIE 网站。 NVIDIA SDK NVIDIA 深度学习平台是内容更广泛的 NVIDIA SDK 的一部分,NVIDIA SDK 将人工智能、虚拟现实和并行计算等目前计算领域中极其重要的技术融入到一个程序中。file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml/wps5CAF.tmp.jpg 目前非常热门的游戏引擎、数百款游戏大作和 GPU 加速应用程序,在 Amazon AWS、IBM Softlayer 和 Microsoft Azure 等云平台上运行的应用程序和服务,以及在美国与全球各地极其强大的超级计算机,都在使用这些软件库、API 和工具。 NVIDIA SDK 内的工具和库按照应用程序领域加以整理,便于开发人员快速访问所需的内容。 强力胶带、树脂玻璃、塑料扣、耳塞和创可贴。
如果您是第一次构建某种物品(不管是太空飞船还是跑车),这些都是最初要用到的东西。如果您仔细查看组装 NVIDIA DGX-1 深度学习系统的工程团队的费用报告,会发现上面列出的就是这些东西。
结果:价值 129,000 美元的精美珠宝箱,外形紧凑,完全能放进 Tiffany 的展示柜。但是,它却可以提供高达 170 万亿次浮点运算能力,这相当于 250 台 x86 服务器所能提供的性能,一家新闻媒体用“疯狂”来描述它。
我们在 4 月份举行的 GPU 技术大会上隆重推出了 DGX-1,它搭载了可以使用超凡能力创造结果的深度学习软件。整个设备都连接到基于云的服务,可以实现快速部署和即时系统更新。无需进行任何组装。 file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml/wps5CB0.tmp.png
The NVIDIA DGX-1 DGX-1:推动人工智能技术蓬勃发展 对于任何希望将深度学习技术带出研究实验室,并将其快速且更轻松地应用到工作中的人而言,它都是理想之选。在过去的五年中,研究人员已经构建了很多系统,在执行我们曾经以为计算机无法处理的任务方面,这些系统能和人类比肩,并且很快超越了人类。
现在,数以亿计的人们依靠由深度学习提供支持的服务来完成语音识别、实时语音翻译和视频发现。更多新奇的应用方式还会陆续推出。但这需要时间和人力,才能通过不同的部件构建深度学习系统。这也是 DGX-1 诞生的前提条件。DGX-1 将会为各行各业以及我们的合作伙伴生态系统带来有利于发展的新机遇。 血汗、强力胶带和软件 DGX-1 背后的故事是一群人用血汗、强力胶带和软件缔造的传奇,团队之间紧密合作,一个团队的工程师要在下一个团队需要全新的深度学习系统的某部分时,完成此部分的建构工作。
“这不仅仅是一个硬件,也不仅仅是一个软件,”参与此项目的主要工程师之一 Mike 说,“只需单击三个 UI 按钮,您便会获得所有这些新功能。” 光速 这一群人在一年以前开始这项工作。2015 年 3 月,NVIDIA 首席执行官黄仁勋向参与当期 GPU 技术大会的与会者承诺,我们即将推出的 GPU 架构 Pascal 将会在一年以后在关键深度学习任务方面实现性能提高 10 倍的目标。但是这里有一个问题:要围绕这些新 GPU 构建机器并将其投入使用,研究人员和公司需要花费数周(甚至是数月)的时间。
几个月后,在公司领导人会议中,黄先生向 NVIDIA 的工程团队提出要求,让他们及时围绕 Pascal 构建出服务器,迎接 2016 年 4 月份举行的 GTC。这让研究人员和各个业务部门不得不加大马力,使用其中的八个 GPU 从事深度学习工作。
这比单纯围绕尚不存在的芯片构建硬件要难得多。二十五个单独的 DGX-1 软件“堆栈”(从开源 Ubuntu 操作系统到 DIGITS 深度学习训练系统,再到 CUDA 深度神经网络 (cuDNN) GPU 加速基元库和一系列 NVIDIA 驱动程序)需要和谐工作。
黄先生向他们提出要求,让其以“光速”组装所有部件,或者考虑各种可能性的基本限制,不断挑战极限。
大概有十二个独立的工程团队迅速投入到行动中。“恐怕没有任何其他公司比我们更知道怎么集体行动了,”产品架构和工程团队的负责人 John 在总结项目时说,“只有那么几个领导,他们集合所需的所有的人的能力完成了任务。”
以下是项目完成的过程: file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml/wps5CC0.tmp.jpg · 2015 年 5 月 – 一个工程师团队草拟了全新的拓扑,可将八个 GPU 结合到 DGX-1 中,每个 GPU 使用 150 亿个晶体管。解决方案:立方网络。此设计可让用户在深度学习任务中投入八个 GPU,或者将系统拆分为两个单独的子系统,处理更加传统的高性能计算工作。但是他们不知道此系统能否再用七个月的时间。第一批 Pascal 样品,第一个使用 NVLink 的 GPU(为网络提供技术支持的高速互联技术)直到 2015 年第四季度才会问世(请参阅“什么是 NVLink?”) · 2015 年 9 月 – 多个软件工程师团队开始为 NVIDIA 集合通信库构建名为 NCCL 的系统软件,此软件将运行于 DGX-1 的立体网络拓扑之上。其他团队开始调试将在 NCCL 之上运行的软件堆栈,包括 Caffe、Theano、Torch、TensorFlow 和 CNTK 等最常用的深度学习和高性能计算工具。 · 2015 年 11 月 – 工程师开始“培养”芯片制造厂或工厂生产的第一批 Pascal 样品这项艰苦工作。这不是普通的“培养”。NVIDIA 的 GPU 设计人员已经针对 Pascal 创建了一个新架构,包括将会帮助用户克服深度学习问题的功能。同时,它们也是内置有功能的第一批小型 GPU,宽度仅为 16 纳米,是指甲每分钟生长长度的四分之一(请参阅“NVIDIA 借助 Tesla P100 加速器使深度学习高性能计算应用程序实现巨大性能飞跃”)。 · 2015 年 12 月 – 全新的 Pascal GPU 开始运行,工程师开始将其整合到一个工作系统中。内情:DGX-1 的第一个机箱直到 1 月底才能完成。因此,工程师们使用金属、强力胶带和树脂玻璃即兴创作了一台设备,过程中不断被这些材料割伤和擦伤。他们连接了两个 GPU,然后连接三个,但是因为被打断,无法连接第四个。最后发现,这是因为一段重要的代码中丢失了两个圆括号造成的。通过键盘输入这两个圆括号之后,网络大功告成。“好像这是命中注定一样,”一位工程师说。 · 2016 年 1 月 – DGX-1 的内部构造完成之后,NVIDIA 的工业设计团队开始使用其新型数字化渲染工具 Iray 构建 DGX-1 边框和铝合金外壳的精确模型。3 月,他们选择使用泡沫金属(飞机上使用的一种轻便且强度超高的材料),与传统的穿孔金属相比,这种材料可让机器更快地吸入冷空气。 · 2016 年 3 月 29 日 – 相关人员从韩国的模型店中购买了最终服务器原型的外壳,并乘坐飞机亲手将其带回。在 GTC 举行之前不到一周的时间内,DGX-1 的所有部件首次组装到一起。在数天时间内,这个由八块即将宣布推出的 Tesla P100 GPU 提供支持的系统,在 AlexNet 深度学习基准测试中实现性能提高 10 倍,在两个小时内即可完成曾经需要花费 20 多个小时才能完成的任务。 · 2016 年 4 月 3 日 – 在 GTC 开幕的前一天,DGX-1 在 AlexNet 上实现性能提高 12 倍。 · 2016 年 4 月 5 日 – 黄先生向全世界展示第一台 DGX-1 服务器。媒体争相拍照,发烧友驻足观看,记者轮番报道。 · 2016 年 5 月 30 日 – NVIDIA 工程师们为客户准备好第一批 DGX-1 系统。一名客户已经等不及了。在 GTC 上展示的第一台服务器现在已经开始在我们硅谷总部的服务器机架内运行了。它正在处理由我们位于新泽西州的自动驾驶团队收集的有关 DRIVE PX 自动驾驶平台的数据。“究竟,”一名 NVIDIA 迷仔细查看这台机器后说,“现在为什么放慢速度了?”
|