特性
基于新一代Fermi CUDA架构的GPU | 与基于最新四核CPU的纯CPU系统相比,该GPU以十分之一的成本和二十分之一的功耗即可实现集群性能。 |
448个CUDA核心 | 每颗GPU最高可实现515 Gigaflop双精度峰值性能,从而让一线OEM厂商的服务器能够在1 RU空间内实现1 Teraflop甚至更高的双精度性能。每颗GPU的单精度峰值性能超过1 Teraflop。 |
ECC存储器 | 能够满足数据中心与超级计算中心在计算精度与可靠性方面的关键需求。能够为存储器中的数据提供保护功能,从而为应用程序增强数据完整性和可靠性。寄存器文件、L1/L2高速缓存、共享存储器以及DRAM均受ECC的保护。 |
每颗GPU最多配备6GB GDDR5存储器 | 更大的数据集能够保存在直接附属于GPU的本地存储器上,从而实现了性能的最大化并减少了数据传输的情况。 |
系统监控特性 | 在GPU子系统中集成了主系统的监控与管理功能。这意味着,IT人员能够通过IPMI或OEM专利工具等常用的管理界面来管理计算系统的所有关键部件。 |
专为最高可靠性而设计 | 被动式散热器的设计去除了运动零件与线缆。 |
NVIDIA®(英伟达™)并行DataCache™ | 能够为物理效果解算器、光线追踪以及稀疏矩阵乘法等诸多算法加速,在这些算法中,数据地址事先都是未知的。每个流式多处理器模块均包含一个可配置的L1高速缓存,所有处理器核心使用统一的L2高速缓存。 |
NVIDIA®(英伟达™)GigaThread™引擎 | 通过多项技术实现了吞吐量的最大化,其中包括10倍于上一代架构的高速上下文切换、并发内核执行以及改良的线程块调度。 |
异步传输 | 计算核心在处理其它数据的同时还能够在PCIe总线上传输数据,因而增强了系统性能。即便是地震处理这类需要大量数据传输的应用程序,也能够通过事先将数据传输至本地存储器的方法来最大限度提升计算效率。 |
CUDA编程环境受到各种编程语言与API的广泛支持 | 开发人员无论选择C语言、C++、OpenCL、DirectCompute还是选择Fortran语言,都能够实现应用程序的并行机制,进而利用创新的“Fermi”架构。 |
高速PCIe Gen 2.0数据传输率 | 实现了主系统与Tesla处理器之间带宽的最大化。让Tesla系统能够应用于几乎所有具备一条开放式PCIe插槽(x8或x16)且符合PCIe规范的主系统。 |
Fermi架构Tesla早在2009年就已经发布,不过由于供电、散热等方面的限制,当时面向工作站的Tesla C2070/C2050以及面向数据中心、超级计算机的Tesla M2070/M2050都对GPU进行了限制,屏蔽了两组SM仅启用448个CUDA核心。而今,游戏市场的GeForce GTX 580通过使用GF110改进核心已经开启了完整的512个CUDA核心,Tesla M2090就是它对应的高性能计算版本。
Tesla M2090提供512个并行处理核心,双精度浮点峰值性能665GFlops,单精度浮点峰值性能1331GFlops。搭配6GB GDDR5缓存,关闭ECC校验状态下的显存带宽为177GB/s。由于是面向数据中心、超级计算机等用户,M2090和M2070/M2050一样,在散热设计上没有使用风扇,仅用热管散热器依靠机架内风扇进行散热。当然,显示输出接口在这样的通用计算卡上也肯定不会存在。
根据NVIDIA的官方测试,4块Tesla M2090加4颗CPU的系统可在AMBER 11分子模拟运算中,每天完成69纳秒的模拟。而之前仅使用CPU的超级计算机,最高记录也不过每天46纳秒。
目前,Tesla M2090已经被装配在惠普的HP ProLiant SL390 G7高性能计算4U服务器中,该机最高可搭载8块Tesla M2090以及两颗CPU。

| 欢迎光临 POPPUR爱换 (https://we.poppur.com/) | Powered by Discuz! X3.4 |