Kepler 1 的独有计算特性

Edison · 发表于 2012-3-25 18:22

Atomic functions operating on 64-bit integer values in shared memory

Atomic addition operating on 32-bit floating point values in global and shared memory

__ballot()

__threadfence_system()

__syncthreads_count(), __syncthreads_and(), __syncthreads_or()

Surface functions

3D grid of thread blocks

Maximum x-dimension of a grid of thread blocks ：(2^31)-1, Fermi 和之前的 GPU 是 65535。

Maximum number of resident blocks per multiprocessor: 16，以前的都是 8。

Maximum number of resident warps per multiprocessor：64，Fermi 是 48，更早之前是 32。

Maximum number of resident threads per multiprocessor：2048，Fermi 是 1536，更早之前是 1024 和 768（G80）。

Number of 32-bit registers per multiprocessor：64K，Fermi-32K，T20-16K，T8/T10-8K。

Maximum width, height, and depth for a 3D texture reference bound to a CUDA array：4096^3，之前的是 2048^3。

Maximum number of textures that can be bound to a kernel：256，之前的是 128。

Maximum number of surfaces that can be bound to a kernel：16，之前的是8

sucKing · 发表于 2012-3-25 18:29

带宽是硬伤

6神-kepler · 发表于 2012-3-25 18:35

球GK110 Kepler 2.0计算特性

fengpc · 发表于 2012-3-25 18:59

sucKing 发表于 2012-3-25 18:29
带宽是硬伤

以前Quadro和Tesla系列的内存频率只有3G

7800gt · 发表于 2012-3-25 19:06

提示: 作者被禁止或删除内容自动屏蔽

樟树 · 发表于 2012-3-25 19:41

本帖最后由樟树于 2012-3-25 19:42 编辑

这就是说shared memory和register的比例大大下降了
看样子是增加了
实际上对192 SP来说是只有以前的一半

只看该作者 · 发表于 2012-3-25 19:43

提示: 作者被禁止或删除内容自动屏蔽

webguest · 发表于 2012-3-25 19:44

GK110什么时候能上市

Elwin · 发表于 2012-3-25 20:00

爱迪生先给名字起好了，叫开普勒-------1

mooncocoon · 发表于 2012-3-25 20:59

Number of 32-bit registers per multiprocessor：64K

这是我觉得最不可思议的黑科技……根本不可理解……

rSKip · 发表于 2012-3-25 22:30

GK104 SMX：64warp 4scheduler 8dispatcher 192SP×1-> 256k
GF1X4 SM：48warp 2scheduler 4dispatcher 48SP×2-> 128k
L1和Shared Memory没增加但位宽加倍（RTW的意思好象是这是GK104唯一针对通用计算的改进）。考虑到同频了的话整个SMX大概就是GF1X4的两倍还算均衡吧。
（说起来GCN里4×16SP对256k好象是多了点儿但考虑到40×64的work-items的话就不算多了不过真的需要这么多wavefront么……Tahiti全芯片上光这些register就有8M……）

Edison · 发表于 2012-3-30 16:02

Kepler 的 L1 Cache 和 Shared Memory 配置现在允许 32KiB/32KiB。

mooncocoon · 发表于 2012-3-30 16:27

本帖最后由 mooncocoon 于 2012-3-30 16:27 编辑

Edison 发表于 2012-3-30 16:02
Kepler 的 L1 Cache 和 Shared Memory 配置现在允许 32KiB/32KiB。

全时平分还是像对面那样0/32以及16/16的转换。
既然L2可以回写L1，现在应该有条件做0/64了吧。

帐号		自动登录	找回密码
密码			注册

7800gt 7800gt 当前离线积分 38 IP卡狗仔卡头像被屏蔽	5^# 发表于 2012-3-25 19:06 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
7800gt 7800gt 当前离线积分 38 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

burntank 该用户已被删除	7^# 发表于 2012-3-25 19:43 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
burntank 该用户已被删除
	回复支持反对使用道具举报显身卡

Kepler 1 的独有计算特性

相关帖子

浏览过的版块