POPPUR爱换

标题: Kepler 1 的独有计算特性 [打印本页]

作者: Edison 时间: 2012-3-25 18:22
标题: Kepler 1 的独有计算特性
Atomic functions operating on 64-bit integer values in shared memory

Atomic addition operating on 32-bit floating point values in global and shared memory

__ballot()

__threadfence_system()

__syncthreads_count(), __syncthreads_and(), __syncthreads_or()

Surface functions

3D grid of thread blocks

Maximum x-dimension of a grid of thread blocks ：(2^31)-1, Fermi 和之前的 GPU 是 65535。

Maximum number of resident blocks per multiprocessor: 16，以前的都是 8。

Maximum number of resident warps per multiprocessor：64，Fermi 是 48，更早之前是 32。

Maximum number of resident threads per multiprocessor：2048，Fermi 是 1536，更早之前是 1024 和 768（G80）。

Number of 32-bit registers per multiprocessor：64K，Fermi-32K，T20-16K，T8/T10-8K。

Maximum width, height, and depth for a 3D texture reference bound to a CUDA array：4096^3，之前的是 2048^3。

Maximum number of textures that can be bound to a kernel：256，之前的是 128。

Maximum number of surfaces that can be bound to a kernel：16，之前的是8

作者: sucKing 时间: 2012-3-25 18:29
带宽是硬伤

作者: 6神-kepler 时间: 2012-3-25 18:35
球GK110 Kepler 2.0计算特性

作者: fengpc 时间: 2012-3-25 18:59

sucKing 发表于 2012-3-25 18:29
带宽是硬伤

以前Quadro和Tesla系列的内存频率只有3G

作者: 7800gt 时间: 2012-3-25 19:06
8至5系都是白送实验性的通用计算验够了今年开始收网顺带像星战那样拖垮AMD

作者: 樟树 时间: 2012-3-25 19:41
本帖最后由樟树于 2012-3-25 19:42 编辑

这就是说shared memory和register的比例大大下降了
看样子是增加了
实际上对192 SP来说是只有以前的一半

作者: burntank 时间: 2012-3-25 19:43
提示: 作者被禁止或删除内容自动屏蔽

作者: webguest 时间: 2012-3-25 19:44
GK110什么时候能上市

作者: Elwin 时间: 2012-3-25 20:00
爱迪生先给名字起好了，叫开普勒-------1

作者: mooncocoon 时间: 2012-3-25 20:59
Number of 32-bit registers per multiprocessor：64K

这是我觉得最不可思议的黑科技……根本不可理解……

作者: rSKip 时间: 2012-3-25 22:30
GK104 SMX：64warp 4scheduler 8dispatcher 192SP×1-> 256k
GF1X4 SM：48warp 2scheduler 4dispatcher 48SP×2-> 128k
L1和Shared Memory没增加但位宽加倍（RTW的意思好象是这是GK104唯一针对通用计算的改进）。考虑到同频了的话整个SMX大概就是GF1X4的两倍还算均衡吧。
（说起来GCN里4×16SP对256k好象是多了点儿但考虑到40×64的work-items的话就不算多了不过真的需要这么多wavefront么……Tahiti全芯片上光这些register就有8M……）

作者: Edison 时间: 2012-3-30 16:02
Kepler 的 L1 Cache 和 Shared Memory 配置现在允许 32KiB/32KiB。

作者: mooncocoon 时间: 2012-3-30 16:27
本帖最后由 mooncocoon 于 2012-3-30 16:27 编辑

Edison 发表于 2012-3-30 16:02
Kepler 的 L1 Cache 和 Shared Memory 配置现在允许 32KiB/32KiB。

全时平分还是像对面那样0/32以及16/16的转换。
既然L2可以回写L1，现在应该有条件做0/64了吧。

欢迎光临 POPPUR爱换 (https://we.poppur.com/)