NVIDIA Tesla P4 P40 两款基于Pascal架构的深度学习芯片

GPU-赵文 · 发表于 2017-2-10 15:44

Tesla P4&P40的性能相当于40个CPU，响应速度是CPU解决方案的45倍。同时，Pascal架构能助推深度学习加速65倍，最新一代的架构Pascal是首个专为深度学习而设计的GPU。

今年4月，NVIDIA推出过Tesla P100加速卡，它是用于执行深度学习神经网络任务的。速度是英伟达之前高端系统的12倍，研发费用高达20亿美元，单个芯片上集成了150亿个晶体管，是后续即将推出的DGX-1 深度学习系统的核心组成部分。Tesla P100主攻学习和训练任务，而Tesla P4&P40主要负责图像、文字和语音识别。
人工智能和深度学习驱使高端芯片达到前所未有的发展，他们将为人工智能提供最基础的服务，如语音援助、电子邮件过滤器、电影和产品推荐引擎等。现在人工智能将会像电能一样，给世界带来巨大的改变。Tesla P40将在10月上市，而Tesla P4将在11月。
Tesla P40基于高端大核心GP100，并且开启全部3840个流处理器(此前的Titan X只有3584个)，核心频率1303-1531MHz，FP32单精度浮点计算能力12TFlops，INT8(八位数据专用推理指令) 47TOPS，响应速度比CPU快45倍。
该卡搭配384-bit 24GB GDDR5显存，等效频率7.2Gbps，整卡功耗250W，被动散热。
顺带一提，GP100大核心的Tesla P100也只开启了3584个流处理器，完整也是3840个，搭配显存是GDDR5X。
Tesla P4的核心则是GTX 1080/1070同款的GP104，全部2560个流处理器，核心频率只有810-1063MHz，单精度性能5.5TFlops，INT8 22TOPS，搭配256-bit 6Gbps 8GB GDDR5显存，功耗50-75W，半高被动散热。
相比于前辈，它们的计算性能分别提升了70％、1.5倍，INT8特性也是首次加入，功耗则维持不变。

NVIDIA表示，Tesla P40可提供非常高的深度学习工作负载处理能力，一台配备八块Tesla P40加速器的服务器在性能上可媲美140多台CPU服务器，同时成本节省超过65万美元。
Tesla P4则可为超大规模数据中心提供极高的能效，一台配备单个Tesla P4的服务器可以取代13台CPU服务器，总体拥有成本可节省超过800％。
同时，NVIDIA还发布了两款配套的开发工具：TensorRT是为优化将部署到生产环境的深度学习模型而创建的库，能即时响应极其复杂的网络；DeepStream SDK则利用帕斯卡务器的强大功能同时，对最多达93路的高清视频流进行实时解码和分析。
Tesla P40/P4将分别在10月、11月发货给相关OEM、ODM厂商。

帐号		自动登录	找回密码
密码			注册

[显卡] NVIDIA Tesla P4 P40 两款基于Pascal架构的深度学习芯片

相关帖子