基于新一代Fermi CUDA架构的GPU
| 与基于最新四核CPU的纯CPU系统相比,该GPU以十分之一的成本和二十分之一的功耗即可实现集群性能。
|
448个CUDA核心
| 每颗GPU最高可实现515 Gigaflop双精度峰值性能,从而让一线OEM厂商的服务器能够在1 RU空间内实现1 Teraflop甚至更高的双精度性能。每颗GPU的单精度峰值性能超过1 Teraflop。
|
ECC存储器
| 能够满足数据中心与超级计算中心在计算精度与可靠性方面的关键需求。能够为存储器中的数据提供保护功能,从而为应用程序增强数据完整性和可靠性。寄存器文件、L1/L2高速缓存、共享存储器以及DRAM均受ECC的保护。
|
每颗GPU最多配备6GB GDDR5存储器
| 更大的数据集能够保存在直接附属于GPU的本地存储器上,从而实现了性能的最大化并减少了数据传输的情况。
|
系统监控特性
| 在GPU子系统中集成了主系统的监控与管理功能。这意味着,IT人员能够通过IPMI或OEM专利工具等常用的管理界面来管理计算系统的所有关键部件。
|
专为最高可靠性而设计
| 被动式散热器的设计去除了运动零件与线缆。
|
NVIDIA®(英伟达™)并行DataCache™
| 能够为物理效果解算器、光线追踪以及稀疏矩阵乘法等诸多算法加速,在这些算法中,数据地址事先都是未知的。每个流式多处理器模块均包含一个可配置的L1高速缓存,所有处理器核心使用统一的L2高速缓存。
|
NVIDIA®(英伟达™)GigaThread™引擎
| 通过多项技术实现了吞吐量的最大化,其中包括10倍于上一代架构的高速上下文切换、并发内核执行以及改良的线程块调度。
|
异步传输
| 计算核心在处理其它数据的同时还能够在PCIe总线上传输数据,因而增强了系统性能。即便是地震处理这类需要大量数据传输的应用程序,也能够通过事先将数据传输至本地存储器的方法来最大限度提升计算效率。
|
CUDA编程环境受到各种编程语言与API的广泛支持
| 开发人员无论选择C语言、C++、OpenCL、DirectCompute还是选择Fortran语言,都能够实现应用程序的并行机制,进而利用创新的“Fermi”架构。
|
高速PCIe Gen 2.0数据传输率
| 实现了主系统与Tesla处理器之间带宽的最大化。让Tesla系统能够应用于几乎所有具备一条开放式PCIe插槽(x8或x16)且符合PCIe规范的主系统。
|