POPPUR爱换

标题: 发一些多日之前收到 AMD RADEON HD 7900 文档中的细节(规格、软件等) [打印本页]

作者: Edison    时间: 2011-12-17 07:34
标题: 发一些多日之前收到 AMD RADEON HD 7900 文档中的细节(规格、软件等)
1、Tahiti 或者说 RADEON HD 7900 具备双 ACE 或者说双几何引擎。
2、每个 ACE 下辖 16 个 GNC QUAD SIMD
3、共有 8 个 Render back-end,或者说每周期能完成 32 个色彩 OP、128 个 Z-Stencil OP。
4、二级可读写 cache 为 768KiB;每 4 个 CU 共享 16KiB L1 指令高速缓存 + 32 KiB L1 数据高速缓存。
5、384-bit GDDR5 内存总线,带宽可以达到264GiB/s
6、采用 PCI-Express 3.0 总线
7、晶体管数量 43 亿。


支持 DX11.1

特别介绍了类似 megatexture 的 Partially Resident Textures (PRT) 技术,不过这次是硬件执行,包括贴图、过滤等操作,纹理尺寸可以达到 32 TiB(128KiB^3*128-bit)。

Tessellation 部分则是明确可以达到 Gen8(6900)的 4 倍性能

Anisotropic Filtering 基本上和 6900 相当,但是改善了高频纹理出现闪烁的问题。

双精度性能为 947 GFLOPS,实现对 DDR、SRAM 的完全 ECC 保护。

多媒体指令方面,引入了 QSAD、MQSAD,可以实现每个周期每个 CU 对 256 个像素执行 SAD 操作,整个下来相当于每秒执行 7.6 Tera 个像素。

软件方面,WinZip 16.5 将提供 OpenCL 支持(例如 AES),这在幻灯片中也有介绍

PowerTune 方面



作者: Edison    时间: 2011-12-17 07:42
Power Tune 部分:
引入了更多粒度更细的电力控制,完全基于数字技术(状态寄存器?)、独立于驱动和配置文件。
在“黑屏”状态或者说 PC 进入闲置模式后,GPU 核心进入 0 瓦特状态,此时风扇也会关掉,CFX 配置的时候这个技术非常吸引


7970 TDP 是大约 210 瓦、7950 是 ... 待定。

7970 的频率是 925 MHz(2048 Core/32 CU),内存是 384-bit @ 5.5 GT/s 。

7950 的内核频率规格待定,但是 core 数确定是 1792 个/28 CU,内存总线依然是 384-bit,但是速率减低为 5GT/s(AMD 自家未完全确定)的水平。



作者: frozenmemory    时间: 2011-12-17 07:45
比580能强多少?
作者: Edison    时间: 2011-12-17 07:48
关于 HD3D 部分:
7900 将实现单 GPU 多屏、多音轨流的定向输出
将在明年 2 月推出自定义分辨率(yeah!)、预配置管理、任务条跨屏等技术
作者: Edison    时间: 2011-12-17 07:54
视频部分:
UVD 保持不变依然是 3.0 世代。
重点来了,7900 具备被称作 VCE 的硬件多视频流编码器,能实现 1080p60 以上的硬件 h.264 视频编码,支持全硬件固定功能编码和 GPU shader 辅助混合编码模式。
压缩的色彩空间编码为 4:2:0
有多种压缩品质可供选择
前面提到的 QSAD 能实现对 steady video 视频稳屏技术的加速,新的 steady video 2.0 还能支持隔行模式的视频以及提供左右对比模式等新特性。
作者: angelahj    时间: 2011-12-17 07:59
在“黑屏”状态或者说 PC 进入闲置模式后,GPU 核心进入 0 瓦特状态,此时风扇也会关掉
这个技术不错哦,笔记本上也应该引入
作者: 66666    时间: 2011-12-17 08:35
Edison 发表于 2011-12-17 07:54
视频部分:
UVD 保持不变依然是 3.0 世代。
重点来了,7900 具备被称作 VCE 的硬件多视频流编码器,能实现 ...

不知道这个质量跟intel那个比如何
作者: Edison    时间: 2011-12-17 08:36
angelahj 发表于 2011-12-17 07:59
在“黑屏”状态或者说 PC 进入闲置模式后,GPU 核心进入 0 瓦特状态,此时风扇也会关掉
这个技术不错哦,笔 ...

其实这不是很复杂的技术,之前 NVIDIA 的 Optimus 就是类似做法,关键是 AMD 这次的 Powertune 能做到单卡本机 GPU 断电。
作者: Edison    时间: 2011-12-17 08:41
66666 发表于 2011-12-17 08:35
不知道这个质量跟intel那个比如何

No Idea,实测才知道。
作者: ntc0394    时间: 2011-12-17 08:51
显卡更新再快,也满足不了游戏的需求,这是啥时代?
作者: 妖精的尾巴    时间: 2011-12-17 09:36
1792个··
作者: BenBear    时间: 2011-12-17 10:20
1792 个……能比 6970 强么?
作者: PaulWong    时间: 2011-12-17 11:08
这个规格… …那些说7970比580强40 50%+的人可能又要贻笑大方了。
作者: 66666    时间: 2011-12-17 11:17
本帖最后由 66666 于 2011-12-17 11:18 编辑

呵呵,看来突厥人那篇7970/7950官方定位是真的了
作者: SnakeLee    时间: 2011-12-17 11:22
这么看的话,还是挺期待这架构的,等着22号看看有没有BF3的评测~
作者: SnakeLee    时间: 2011-12-17 11:24
关于功耗那块,如果是多卡系统,是不是平时低负载不是3D应用时候副卡会自己断电啊,这个要是有那还真是挺好的
作者: Edison    时间: 2011-12-17 11:27
SnakeLee 发表于 2011-12-17 11:24
关于功耗那块,如果是多卡系统,是不是平时低负载不是3D应用时候副卡会自己断电啊,这个要是有那还真是挺好 ...

就是这样。

例如 4-way CFX 的话,低负载下和以前的 1:1:1:1 相比,现在可以做到 0:0:0:1。
作者: 明镜止水    时间: 2011-12-17 11:36
本帖最后由 明镜止水 于 2011-12-17 11:36 编辑

等22号了
作者: GTX999    时间: 2011-12-17 11:49
以后下载机可以扔了  哈哈
作者: GTX999    时间: 2011-12-17 11:51
7950再次定位尴尬 如果不能超过580的话
28nm的高频7870都会接近他
作者: k319    时间: 2011-12-17 12:05
Edison 发表于 2011-12-17 11:27
就是这样。

例如 4-way CFX 的话,低负载下和以前的 1:1:1:1 相比,现在可以做到 0:0:0:1。

不提倡edsion换头像
作者: nfsking2    时间: 2011-12-17 12:24
43亿晶体管。。。。看来又是个高温卡
作者: Edison    时间: 2011-12-17 12:38
nfsking2 发表于 2011-12-17 12:24
43亿晶体管。。。。看来又是个高温卡

210 Watt TDP(可能可以达到 250 watt max)。
作者: m600kf    时间: 2011-12-17 12:54
自定义分辨率 是什么意思
作者: cool_exorcist    时间: 2011-12-17 12:56
看起来很强啊,Kepler有什么消息吗?
作者: zxl7288436    时间: 2011-12-17 13:01
待机功耗值得期待啊,其他没觉得有啥特别的意思
如果7系低端也可以待机关闭GPU 的话那下载机之类的就完全没必要了
只是大概又是特定主板支持······
作者: Edison    时间: 2011-12-17 13:03
m600kf 发表于 2011-12-17 12:54
自定义分辨率 是什么意思

这有什么难明呀?
作者: D65    时间: 2011-12-17 13:05
很显然开普勒,又不着急了。
作者: luckissy    时间: 2011-12-17 13:15
本帖最后由 luckissy 于 2011-12-17 13:16 编辑

dx11.1难道dx11的卡不支持吗?
作者: Edison    时间: 2011-12-17 13:24
luckissy 发表于 2011-12-17 13:15
[rolleyes> dx11.1难道dx11的卡不支持吗?

等 Windows 8 的 driver 出来后就知道了。
作者: luckissy    时间: 2011-12-17 13:53
Edison 发表于 2011-12-17 13:24
等 Windows 8 的 driver 出来后就知道了。

GCN架构不是说双精度浮点运算能做到单精度的1/2吗?现在只有1/4?
作者: luckissy    时间: 2011-12-17 13:55
本帖最后由 luckissy 于 2011-12-17 13:55 编辑

Firestream独有?还是说做不到?
作者: Edison    时间: 2011-12-17 13:57
luckissy 发表于 2011-12-17 13:53
[wacko> GCN架构不是说双精度浮点运算能做到单精度的1/2吗?现在只有1/4?

印象中没有听过这样的说法,你有这个说法的来源吗?
作者: luckissy    时间: 2011-12-17 14:08
Edison 发表于 2011-12-17 13:57
印象中没有听过这样的说法,你有这个说法的来源吗?

http://www.anandtech.com/Show/In ... hitects-for-compute
驱家有翻译这篇  里面好像说到 真实情况就不知道了 不过1/2也是有可能的吧
作者: Edison    时间: 2011-12-17 14:10
luckissy 发表于 2011-12-17 14:08
http://www.anandtech.com/Show/Index/4455?cPage=3&all=False&sort=0&page=6&slug=amds-graphics-core-n ...
but ¼ rate and 1/16 rate are also options.

估计熔丝位烧一下就变了。

作者: 66666    时间: 2011-12-17 14:40
本帖最后由 66666 于 2011-12-17 14:40 编辑

AMD游戏卡没有阉割双精度的传统,不出意外GCN构架能力就是四分之一了
作者: asdfjkl    时间: 2011-12-17 14:45
请问Tahiti架构的,DP:SP的比例是多少? 1:2 还是 1:4?
作者: maven52    时间: 2011-12-17 14:45
不知道7系列能否一雪6系列的前耻
作者: Edison    时间: 2011-12-17 14:55
asdfjkl 发表于 2011-12-17 14:45
请问Tahiti架构的,DP:SP的比例是多少? 1:2 还是 1:4?

1:4。

GCN 足本可能是 1:2.
作者: godlike    时间: 2011-12-17 15:30
被CNBETA转了
作者: bobcat    时间: 2011-12-17 15:36
66666 发表于 2011-12-17 14:40
AMD游戏卡没有阉割双精度的传统,不出意外GCN构架能力就是四分之一了

Barts?  
作者: Edison    时间: 2011-12-17 16:19
bobcat 发表于 2011-12-17 15:36
Barts?  [titter>

那是它本来就没啥双精度能力吧。
作者: 烽火连城    时间: 2011-12-17 17:56
7850会是新架构吗?
作者: pivk    时间: 2011-12-17 18:42
本帖最后由 pivk 于 2011-12-17 19:05 编辑
cool_exorcist 发表于 2011-12-17 12:56
看起来很强啊,Kepler有什么消息吗?

edit.exe
作者: fengpc    时间: 2011-12-17 22:31
Edison 发表于 2011-12-17 08:36
其实这不是很复杂的技术,之前 NVIDIA 的 Optimus 就是类似做法,关键是 AMD 这次的 Powertune 能做到单卡 ...

Optimus已经可以做到GPU完全断电

AMD把一个ALU算作一个CU,比较坑爹啊,为了整出2048CU这个惊人的数字~~就像VLIW5架构下5个所谓的SP才能算是一个完整的SP
作者: iamw2d    时间: 2011-12-17 22:34
fengpc 发表于 2011-12-17 22:31
Optimus已经可以做到GPU完全断电

AMD把一个ALU算作一个CU,比较坑爹啊,为了整出2048CU这个惊人的数字 ...

你该去补课了
作者: Edison    时间: 2011-12-17 23:11
fengpc 发表于 2011-12-17 22:31
Optimus已经可以做到GPU完全断电

AMD把一个ALU算作一个CU,比较坑爹啊,为了整出2048CU这个惊人的数字 ...

CU 和 ALU 是完全两码事。
作者: mooncocoon    时间: 2011-12-18 13:24
我还是不能理解GPU采用I-Cache和D-Cache分开的设计是一种怎样的精神……
AMD每次都喜欢把缓冲搞得极端复杂,甚至是为了复杂而复杂,这好不容易盼来了unified cache,结果竟然还特么是分立式的。L1 I-Cache、L1 D-Cache、L2 r/w-Cache、还有Texture-Cache和两组shared,……似乎GCN的主要缓冲体系不仅没有统一,反而比过去更加混乱甚至是混沌了。
作者: Edison    时间: 2011-12-18 13:53
L1 的 I$ 和 D$ 分开可以提高性能,混杂在一起的话,取指和 L/S 就会在总线带宽上撞得五颜六色。
作者: mooncocoon    时间: 2011-12-18 14:13
Edison 发表于 2011-12-18 13:53
L1 的 I$ 和 D$ 分开可以提高性能,混杂在一起的话,取指和 L/S 就会在总线带宽上撞得五颜六色。

但同时也要面对编程时面对N套缓冲不知道该从哪里下牙的局面。
PS3上程序员把本来应该写给SPE的cache里的shader写进内存然后掀桌子骂娘的事情不就是愉快的先例么
作者: audew    时间: 2011-12-18 14:42
这待机功耗控制技术确实好啊,不需要单独的下载机了
作者: Edison    时间: 2011-12-18 15:42
硬件 cache 本身就是透明的,程序员只要知道大小等一些简单的细节就是了。
作者: CC9K    时间: 2011-12-18 15:52
SPE用的是256KB的Local Storage不是Cache
作者: mooncocoon    时间: 2011-12-18 16:32
Edison 发表于 2011-12-18 15:42
硬件 cache 本身就是透明的,程序员只要知道大小等一些简单的细节就是了。

可你也知道AMD的许多Cache并不都是透明的,他们通常都是披着“Cache外皮”的Shared甚至其他什么buffer,根本不是cache不是么。
作者: Edison    时间: 2011-12-18 17:49
mooncocoon 发表于 2011-12-18 16:32
可你也知道AMD的许多Cache并不都是透明的,他们通常都是披着“Cache外皮”的Shared甚至其他什么buffer,根 ...

在开发手册中,没看到你说的情况。
作者: mooncocoon    时间: 2011-12-18 23:49
本帖最后由 mooncocoon 于 2011-12-18 23:55 编辑

GDS、LDS、shader constant cache、shader instruction cache、memory R/W cache、L1/L2 Texture cache、Z cache、Stencil cache、color cache……
CHO你又顽劣不堪啦
恩,好吧,我是门外汉,他们的名字看上去倒是很朴实,每一个名字都给自己定性了一个作用,但这么多“Cache”我看着就是头晕,而且还会控制不住的向延迟不透明的方向上去靠,实在是对不起啦。
NVIDIA那边倒是简单明了,一概都是老老实实的“buffer”,看着没啥歧义。
作者: Edison    时间: 2011-12-19 08:15
手册里说得很清楚,GDS、LDS 都不是 Cache,程序员可以控制的,其他那些本身就写着 cache,程序员无法控制,NVIDIA 也是这样。
作者: mooncocoon    时间: 2011-12-19 09:35
本帖最后由 mooncocoon 于 2011-12-19 09:35 编辑
Edison 发表于 2011-12-19 08:15
手册里说得很清楚,GDS、LDS 都不是 Cache,程序员可以控制的,其他那些本身就写着 cache,程序员无法控制, ...

你确信后面那一大堆都是延迟不透明的“cache”么~?
作者: Edison    时间: 2011-12-19 12:16
这是编程指南说得再清楚不过的事情了。
作者: mooncocoon    时间: 2011-12-19 13:38
Edison 发表于 2011-12-19 12:16
这是编程指南说得再清楚不过的事情了。

为何我只看到了“cache”的名号,没看到对于延迟透明与否的描述呢
作者: panjanstoneborg    时间: 2011-12-19 19:12
GDS、LDS、shader constant cache、shader instruction cache、memory R/W cache、L1/L2 Texture cache、Z cache、Stencil cache、color cache……

cuda里面也有constant何texture 缓存啊,L2对程序员来说也是不透明的吧,后面3个小弟理解是rop的组成部分而已,何写程序也没什么关系
作者: Edison    时间: 2011-12-19 22:37
mooncocoon 发表于 2011-12-19 13:38
为何我只看到了“cache”的名号,没看到对于延迟透明与否的描述呢

GPU 上的 cache 主要是提供更多的带宽。

这些微架构细节,NVIDIA、AMD 一般都不会提供,需要自己写程序来探测。

作者: mooncocoon    时间: 2011-12-19 22:44
Edison 发表于 2011-12-19 22:37
GPU 上的 cache 主要是提供更多的带宽。

这些微架构细节,NVIDIA、AMD 一般都不会提供,需要自己写程序 ...

我知道在这里cache基本上就是充当寄存器溢出缓冲以及显存的快速预取,但毕竟这么多的“cache”看着还是别扭,尤其是ROP里面那几个…………

好吧,你也有日子没玩类似的东西了,来玩玩这个吧,别老搞你那对电路板啦~
作者: 万恶之灵    时间: 2011-12-20 00:17
1080P60FPS编码。。以为是解码。。。


解码的话,Intel和nv早实现了,AMD至今还未...依旧掉帧
作者: Edison    时间: 2011-12-20 09:25
mooncocoon 发表于 2011-12-19 22:44
我知道在这里cache基本上就是充当寄存器溢出缓冲以及显存的快速预取,但毕竟这么多的“cache”看着还是别 ...

我之前在架构区发了一大堆 cache 相关的测试,你没去看而已。




作者: mooncocoon    时间: 2011-12-20 09:58
Edison 发表于 2011-12-20 09:25
我之前在架构区发了一大堆 cache 相关的测试,你没去看而已。

没落下啊,问题是你自己上次做的已经是猴年马月的事了啊
作者: inSeek    时间: 2011-12-20 13:17
GTX999 发表于 2011-12-17 11:49
[w00t> 以后下载机可以扔了  哈哈

明显不能扔...我不信用7970这等级卡的用户的整机待机(7970 0W)是能进50W...现在考虑到主力机的数据比下载机重要等等,心疼主力机24*7等等- - 所以下载机还是会存在滴
作者: inSeek    时间: 2011-12-20 13:18
Edison 发表于 2011-12-17 13:03
这有什么难明呀?

NV一直支持的那个功能?
作者: gz_easy    时间: 2011-12-20 14:10
luckissy 发表于 2011-12-17 13:15
[rolleyes> dx11.1难道dx11的卡不支持吗?

DX11.1的某些特性必须要有WDDM1.2 Driver才行。
作者: gz_easy    时间: 2011-12-20 22:30
本帖最后由 gz_easy 于 2011-12-20 22:31 编辑
gz_easy 发表于 2011-12-20 14:10
DX11.1的某些特性必须要有WDDM1.2 Driver才行。
点评
luckissy WDDM1.2 只要DX10级别或以上的显卡 安装win8 默认就是WDDM1.2的驱动 发表于 2011-12-20 14:40



Win8 in-box driver不一定能提供WDDM 1.2 full function.
作者: 蕊珠    时间: 2011-12-21 11:11
这个规格只能比580强个25.6%了
作者: 蕊珠    时间: 2011-12-21 11:12
GTX999 发表于 2011-12-17 11:51
7950再次定位尴尬 如果不能超过580的话
28nm的高频7870都会接近他

7950只要达到800M主频就能超580 4.2%
作者: Travis    时间: 2011-12-21 13:08
fengpc 发表于 2011-12-17 22:31
Optimus已经可以做到GPU完全断电

AMD把一个ALU算作一个CU,比较坑爹啊,为了整出2048CU这个惊人的数字 ...

一个CU对应于Cayman里面一个SIMD的地位,下辖4个Vector Unit和1个Scalar Unit(其余LDS等略),每个Vector Unit包含16个ALU,一个CU里总计64个ALU。




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4