POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 3099|回复: 12
打印 上一主题 下一主题

Kepler 1 的独有计算特性

[复制链接]
跳转到指定楼层
1#
发表于 2012-3-25 18:22 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
Atomic functions operating on 64-bit integer values in shared memory

Atomic addition operating on 32-bit floating point values in global and shared memory

__ballot()

__threadfence_system()

__syncthreads_count(), __syncthreads_and(), __syncthreads_or()

Surface functions

3D grid of thread blocks

Maximum x-dimension of a grid of thread blocks :(2^31)-1, Fermi 和之前的 GPU 是 65535。

Maximum number of resident blocks per multiprocessor: 16,以前的都是 8。

Maximum number of resident warps per multiprocessor:64,Fermi 是 48,更早之前是 32。

Maximum number of resident threads per multiprocessor:2048,Fermi 是 1536,更早之前是 1024 和 768(G80)。

Number of 32-bit registers per multiprocessor:64K,Fermi-32K,T20-16K,T8/T10-8K。

Maximum width, height, and depth for a 3D texture reference bound to a CUDA array:4096^3,之前的是 2048^3。

Maximum number of textures that can be bound to a kernel:256,之前的是 128。

Maximum number of surfaces that can be bound to a kernel:16,之前的是8
2#
发表于 2012-3-25 18:29 | 只看该作者
带宽是硬伤
回复 支持 反对

使用道具 举报

3#
发表于 2012-3-25 18:35 | 只看该作者
球GK110 Kepler 2.0计算特性
回复 支持 反对

使用道具 举报

4#
发表于 2012-3-25 18:59 | 只看该作者
sucKing 发表于 2012-3-25 18:29
带宽是硬伤

以前Quadro和Tesla系列的内存频率只有3G
回复 支持 反对

使用道具 举报

头像被屏蔽
5#
发表于 2012-3-25 19:06 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

6#
发表于 2012-3-25 19:41 | 只看该作者
本帖最后由 樟树 于 2012-3-25 19:42 编辑

这就是说shared memory和register的比例大大下降了
看样子是增加了
实际上对192 SP来说是只有以前的一半
回复 支持 反对

使用道具 举报

burntank 该用户已被删除
7#
发表于 2012-3-25 19:43 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

8#
发表于 2012-3-25 19:44 | 只看该作者
GK110什么时候能上市
回复 支持 反对

使用道具 举报

9#
发表于 2012-3-25 20:00 | 只看该作者
爱迪生先给名字起好了,叫开普勒-------1
回复 支持 反对

使用道具 举报

10#
发表于 2012-3-25 20:59 | 只看该作者
Number of 32-bit registers per multiprocessor:64K

这是我觉得最不可思议的黑科技……根本不可理解……
回复 支持 反对

使用道具 举报

11#
发表于 2012-3-25 22:30 | 只看该作者
GK104 SMX:64warp 4scheduler 8dispatcher 192SP×1-> 256k
GF1X4 SM:48warp 2scheduler 4dispatcher 48SP×2-> 128k
L1和Shared Memory没增加 但位宽加倍(RTW的意思好象是这是GK104唯一针对通用计算的改进)。考虑到同频了的话整个SMX大概就是GF1X4的两倍 还算均衡吧。
(说起来GCN里4×16SP对256k好象是多了点儿 但考虑到40×64的work-items的话就不算多了 不过真的需要这么多wavefront么……Tahiti全芯片上光这些register就有8M……)
回复 支持 反对

使用道具 举报

12#
 楼主| 发表于 2012-3-30 16:02 | 只看该作者
Kepler 的 L1 Cache 和 Shared Memory 配置现在允许 32KiB/32KiB。
回复 支持 反对

使用道具 举报

13#
发表于 2012-3-30 16:27 | 只看该作者
本帖最后由 mooncocoon 于 2012-3-30 16:27 编辑
Edison 发表于 2012-3-30 16:02
Kepler 的 L1 Cache 和 Shared Memory 配置现在允许 32KiB/32KiB。

全时平分还是像对面那样0/32以及16/16的转换。
既然L2可以回写L1,现在应该有条件做0/64了吧。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-19 08:51

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表