POPPUR爱换

标题: 发一些多日之前收到 AMD RADEON HD 7900 文档中的细节（规格、软件等） [打印本页]

作者: Edison 时间: 2011-12-17 07:34
标题: 发一些多日之前收到 AMD RADEON HD 7900 文档中的细节（规格、软件等）
1、Tahiti 或者说 RADEON HD 7900 具备双 ACE 或者说双几何引擎。
2、每个 ACE 下辖 16 个 GNC QUAD SIMD
3、共有 8 个 Render back-end，或者说每周期能完成 32 个色彩 OP、128 个 Z-Stencil OP。
4、二级可读写 cache 为 768KiB；每 4 个 CU 共享 16KiB L1 指令高速缓存 + 32 KiB L1 数据高速缓存。
5、384-bit GDDR5 内存总线，带宽可以达到264GiB/s
6、采用 PCI-Express 3.0 总线
7、晶体管数量 43 亿。

支持 DX11.1

特别介绍了类似 megatexture 的 Partially Resident Textures (PRT) 技术，不过这次是硬件执行，包括贴图、过滤等操作，纹理尺寸可以达到 32 TiB（128KiB^3*128-bit）。

Tessellation 部分则是明确可以达到 Gen8（6900）的 4 倍性能

Anisotropic Filtering 基本上和 6900 相当，但是改善了高频纹理出现闪烁的问题。

双精度性能为 947 GFLOPS，实现对 DDR、SRAM 的完全 ECC 保护。

多媒体指令方面，引入了 QSAD、MQSAD，可以实现每个周期每个 CU 对 256 个像素执行 SAD 操作，整个下来相当于每秒执行 7.6 Tera 个像素。

软件方面，WinZip 16.5 将提供 OpenCL 支持（例如 AES），这在幻灯片中也有介绍

PowerTune 方面

作者: Edison 时间: 2011-12-17 07:42
Power Tune 部分：
引入了更多粒度更细的电力控制，完全基于数字技术（状态寄存器？）、独立于驱动和配置文件。
在“黑屏”状态或者说 PC 进入闲置模式后，GPU 核心进入 0 瓦特状态，此时风扇也会关掉，CFX 配置的时候这个技术非常吸引

7970 TDP 是大约 210 瓦、7950 是 ... 待定。

7970 的频率是 925 MHz（2048 Core/32 CU），内存是 384-bit @ 5.5 GT/s 。

7950 的内核频率规格待定，但是 core 数确定是 1792 个/28 CU，内存总线依然是 384-bit，但是速率减低为 5GT/s（AMD 自家未完全确定）的水平。

作者: frozenmemory 时间: 2011-12-17 07:45
比580能强多少？

作者: Edison 时间: 2011-12-17 07:48
关于 HD3D 部分：
7900 将实现单 GPU 多屏、多音轨流的定向输出
将在明年 2 月推出自定义分辨率（yeah！）、预配置管理、任务条跨屏等技术

作者: Edison 时间: 2011-12-17 07:54
视频部分：
UVD 保持不变依然是 3.0 世代。
重点来了，7900 具备被称作 VCE 的硬件多视频流编码器，能实现 1080p60 以上的硬件 h.264 视频编码，支持全硬件固定功能编码和 GPU shader 辅助混合编码模式。
压缩的色彩空间编码为 4:2:0
有多种压缩品质可供选择
前面提到的 QSAD 能实现对 steady video 视频稳屏技术的加速，新的 steady video 2.0 还能支持隔行模式的视频以及提供左右对比模式等新特性。

作者: angelahj 时间: 2011-12-17 07:59
在“黑屏”状态或者说 PC 进入闲置模式后，GPU 核心进入 0 瓦特状态，此时风扇也会关掉
这个技术不错哦,笔记本上也应该引入

作者: 66666 时间: 2011-12-17 08:35

Edison 发表于 2011-12-17 07:54
视频部分：
UVD 保持不变依然是 3.0 世代。
重点来了，7900 具备被称作 VCE 的硬件多视频流编码器，能实现 ...

不知道这个质量跟intel那个比如何

作者: Edison 时间: 2011-12-17 08:36

angelahj 发表于 2011-12-17 07:59
在“黑屏”状态或者说 PC 进入闲置模式后，GPU 核心进入 0 瓦特状态，此时风扇也会关掉
这个技术不错哦,笔 ...

其实这不是很复杂的技术，之前 NVIDIA 的 Optimus 就是类似做法，关键是 AMD 这次的 Powertune 能做到单卡本机 GPU 断电。

作者: Edison 时间: 2011-12-17 08:41

66666 发表于 2011-12-17 08:35
不知道这个质量跟intel那个比如何

No Idea，实测才知道。

作者: ntc0394 时间: 2011-12-17 08:51
显卡更新再快，也满足不了游戏的需求，这是啥时代？

作者: 妖精的尾巴 时间: 2011-12-17 09:36

1792个··

作者: BenBear 时间: 2011-12-17 10:20
1792 个……能比 6970 强么？

作者: PaulWong 时间: 2011-12-17 11:08
这个规格… …那些说7970比580强40 50％＋的人可能又要贻笑大方了。

作者: 66666 时间: 2011-12-17 11:17
本帖最后由 66666 于 2011-12-17 11:18 编辑

呵呵，看来突厥人那篇7970/7950官方定位是真的了

作者: SnakeLee 时间: 2011-12-17 11:22
这么看的话，还是挺期待这架构的，等着22号看看有没有BF3的评测~

作者: SnakeLee 时间: 2011-12-17 11:24
关于功耗那块，如果是多卡系统，是不是平时低负载不是3D应用时候副卡会自己断电啊，这个要是有那还真是挺好的

作者: Edison 时间: 2011-12-17 11:27

SnakeLee 发表于 2011-12-17 11:24
关于功耗那块，如果是多卡系统，是不是平时低负载不是3D应用时候副卡会自己断电啊，这个要是有那还真是挺好 ...

就是这样。

例如 4-way CFX 的话，低负载下和以前的 1:1:1:1 相比，现在可以做到 0:0:0:1。

作者: 明镜止水 时间: 2011-12-17 11:36
本帖最后由明镜止水于 2011-12-17 11:36 编辑

等22号了

作者: GTX999 时间: 2011-12-17 11:49

以后下载机可以扔了哈哈

作者: GTX999 时间: 2011-12-17 11:51
7950再次定位尴尬如果不能超过580的话
28nm的高频7870都会接近他

作者: k319 时间: 2011-12-17 12:05

Edison 发表于 2011-12-17 11:27
就是这样。

例如 4-way CFX 的话，低负载下和以前的 1:1:1:1 相比，现在可以做到 0:0:0:1。

不提倡edsion换头像

作者: nfsking2 时间: 2011-12-17 12:24
43亿晶体管。。。。看来又是个高温卡

作者: Edison 时间: 2011-12-17 12:38

nfsking2 发表于 2011-12-17 12:24
43亿晶体管。。。。看来又是个高温卡

210 Watt TDP（可能可以达到 250 watt max）。

作者: m600kf 时间: 2011-12-17 12:54
自定义分辨率是什么意思

作者: cool_exorcist 时间: 2011-12-17 12:56
看起来很强啊，Kepler有什么消息吗？

作者: zxl7288436 时间: 2011-12-17 13:01
待机功耗值得期待啊，其他没觉得有啥特别的意思
如果7系低端也可以待机关闭GPU 的话那下载机之类的就完全没必要了
只是大概又是特定主板支持······

作者: Edison 时间: 2011-12-17 13:03

m600kf 发表于 2011-12-17 12:54
自定义分辨率是什么意思

这有什么难明呀？

作者: D65 时间: 2011-12-17 13:05
很显然开普勒，又不着急了。

作者: luckissy 时间: 2011-12-17 13:15
本帖最后由 luckissy 于 2011-12-17 13:16 编辑

dx11.1难道dx11的卡不支持吗？

作者: Edison 时间: 2011-12-17 13:24

luckissy 发表于 2011-12-17 13:15
[rolleyes> dx11.1难道dx11的卡不支持吗？

等 Windows 8 的 driver 出来后就知道了。

作者: luckissy 时间: 2011-12-17 13:53

Edison 发表于 2011-12-17 13:24
等 Windows 8 的 driver 出来后就知道了。

GCN架构不是说双精度浮点运算能做到单精度的1/2吗？现在只有1/4？

作者: luckissy 时间: 2011-12-17 13:55
本帖最后由 luckissy 于 2011-12-17 13:55 编辑

Firestream独有？还是说做不到？

作者: Edison 时间: 2011-12-17 13:57

luckissy 发表于 2011-12-17 13:53
[wacko> GCN架构不是说双精度浮点运算能做到单精度的1/2吗？现在只有1/4？

印象中没有听过这样的说法，你有这个说法的来源吗？

作者: luckissy 时间: 2011-12-17 14:08

Edison 发表于 2011-12-17 13:57
印象中没有听过这样的说法，你有这个说法的来源吗？

http://www.anandtech.com/Show/In ... hitects-for-compute

驱家有翻译这篇里面好像说到真实情况就不知道了不过1/2也是有可能的吧

作者: Edison 时间: 2011-12-17 14:10

luckissy 发表于 2011-12-17 14:08
http://www.anandtech.com/Show/Index/4455?cPage=3&all=False&sort=0&page=6&slug=amds-graphics-core-n ...

but ¼ rate and 1/16 rate are also options.

估计熔丝位烧一下就变了。

作者: 66666 时间: 2011-12-17 14:40
本帖最后由 66666 于 2011-12-17 14:40 编辑

AMD游戏卡没有阉割双精度的传统，不出意外GCN构架能力就是四分之一了

作者: asdfjkl 时间: 2011-12-17 14:45
请问Tahiti架构的，DP：SP的比例是多少？ 1:2 还是 1:4？

作者: maven52 时间: 2011-12-17 14:45
不知道7系列能否一雪6系列的前耻

作者: Edison 时间: 2011-12-17 14:55

asdfjkl 发表于 2011-12-17 14:45
请问Tahiti架构的，DP：SP的比例是多少？ 1:2 还是 1:4？

1:4。

GCN 足本可能是 1:2.

作者: godlike 时间: 2011-12-17 15:30
被CNBETA转了

作者: bobcat 时间: 2011-12-17 15:36

66666 发表于 2011-12-17 14:40
AMD游戏卡没有阉割双精度的传统，不出意外GCN构架能力就是四分之一了

Barts?

作者: Edison 时间: 2011-12-17 16:19

bobcat 发表于 2011-12-17 15:36
Barts? [titter>

那是它本来就没啥双精度能力吧。

作者: 烽火连城 时间: 2011-12-17 17:56
7850会是新架构吗？

作者: pivk 时间: 2011-12-17 18:42
本帖最后由 pivk 于 2011-12-17 19:05 编辑

cool_exorcist 发表于 2011-12-17 12:56
看起来很强啊，Kepler有什么消息吗？

edit.exe

作者: fengpc 时间: 2011-12-17 22:31

Edison 发表于 2011-12-17 08:36
其实这不是很复杂的技术，之前 NVIDIA 的 Optimus 就是类似做法，关键是 AMD 这次的 Powertune 能做到单卡 ...

Optimus已经可以做到GPU完全断电

AMD把一个ALU算作一个CU，比较坑爹啊，为了整出2048CU这个惊人的数字～～就像VLIW5架构下5个所谓的SP才能算是一个完整的SP

作者: iamw2d 时间: 2011-12-17 22:34

fengpc 发表于 2011-12-17 22:31
Optimus已经可以做到GPU完全断电

AMD把一个ALU算作一个CU，比较坑爹啊，为了整出2048CU这个惊人的数字 ...

你该去补课了

作者: Edison 时间: 2011-12-17 23:11

fengpc 发表于 2011-12-17 22:31
Optimus已经可以做到GPU完全断电

AMD把一个ALU算作一个CU，比较坑爹啊，为了整出2048CU这个惊人的数字 ...

CU 和 ALU 是完全两码事。

作者: mooncocoon 时间: 2011-12-18 13:24
我还是不能理解GPU采用I-Cache和D-Cache分开的设计是一种怎样的精神……
AMD每次都喜欢把缓冲搞得极端复杂，甚至是为了复杂而复杂，这好不容易盼来了unified cache，结果竟然还特么是分立式的。L1 I-Cache、L1 D-Cache、L2 r/w-Cache、还有Texture-Cache和两组shared，……似乎GCN的主要缓冲体系不仅没有统一，反而比过去更加混乱甚至是混沌了。

作者: Edison 时间: 2011-12-18 13:53
L1 的 I$ 和 D$ 分开可以提高性能，混杂在一起的话，取指和 L/S 就会在总线带宽上撞得五颜六色。

作者: mooncocoon 时间: 2011-12-18 14:13

Edison 发表于 2011-12-18 13:53
L1 的 I$ 和 D$ 分开可以提高性能，混杂在一起的话，取指和 L/S 就会在总线带宽上撞得五颜六色。

但同时也要面对编程时面对N套缓冲不知道该从哪里下牙的局面。
PS3上程序员把本来应该写给SPE的cache里的shader写进内存然后掀桌子骂娘的事情不就是愉快的先例么

作者: audew 时间: 2011-12-18 14:42
这待机功耗控制技术确实好啊，不需要单独的下载机了

作者: Edison 时间: 2011-12-18 15:42
硬件 cache 本身就是透明的，程序员只要知道大小等一些简单的细节就是了。

作者: CC9K 时间: 2011-12-18 15:52
SPE用的是256KB的Local Storage不是Cache

作者: mooncocoon 时间: 2011-12-18 16:32

Edison 发表于 2011-12-18 15:42
硬件 cache 本身就是透明的，程序员只要知道大小等一些简单的细节就是了。

可你也知道AMD的许多Cache并不都是透明的，他们通常都是披着“Cache外皮”的Shared甚至其他什么buffer，根本不是cache不是么。

作者: Edison 时间: 2011-12-18 17:49

mooncocoon 发表于 2011-12-18 16:32
可你也知道AMD的许多Cache并不都是透明的，他们通常都是披着“Cache外皮”的Shared甚至其他什么buffer，根 ...

在开发手册中，没看到你说的情况。

作者: mooncocoon 时间: 2011-12-18 23:49
本帖最后由 mooncocoon 于 2011-12-18 23:55 编辑

GDS、LDS、shader constant cache、shader instruction cache、memory R/W cache、L1/L2 Texture cache、Z cache、Stencil cache、color cache……
CHO你又顽劣不堪啦

恩，好吧，我是门外汉，他们的名字看上去倒是很朴实，每一个名字都给自己定性了一个作用，但这么多“Cache”我看着就是头晕，而且还会控制不住的向延迟不透明的方向上去靠，实在是对不起啦。

NVIDIA那边倒是简单明了，一概都是老老实实的“buffer”，看着没啥歧义。

作者: Edison 时间: 2011-12-19 08:15
手册里说得很清楚，GDS、LDS 都不是 Cache，程序员可以控制的，其他那些本身就写着 cache，程序员无法控制，NVIDIA 也是这样。

作者: mooncocoon 时间: 2011-12-19 09:35
本帖最后由 mooncocoon 于 2011-12-19 09:35 编辑

Edison 发表于 2011-12-19 08:15
手册里说得很清楚，GDS、LDS 都不是 Cache，程序员可以控制的，其他那些本身就写着 cache，程序员无法控制， ...

你确信后面那一大堆都是延迟不透明的“cache”么~？

作者: Edison 时间: 2011-12-19 12:16
这是编程指南说得再清楚不过的事情了。

作者: mooncocoon 时间: 2011-12-19 13:38

Edison 发表于 2011-12-19 12:16
这是编程指南说得再清楚不过的事情了。

为何我只看到了“cache”的名号，没看到对于延迟透明与否的描述呢

作者: panjanstoneborg 时间: 2011-12-19 19:12
GDS、LDS、shader constant cache、shader instruction cache、memory R/W cache、L1/L2 Texture cache、Z cache、Stencil cache、color cache……

cuda里面也有constant何texture 缓存啊，L2对程序员来说也是不透明的吧，后面3个小弟理解是rop的组成部分而已，何写程序也没什么关系

作者: Edison 时间: 2011-12-19 22:37

mooncocoon 发表于 2011-12-19 13:38
为何我只看到了“cache”的名号，没看到对于延迟透明与否的描述呢

GPU 上的 cache 主要是提供更多的带宽。

这些微架构细节，NVIDIA、AMD 一般都不会提供，需要自己写程序来探测。

作者: mooncocoon 时间: 2011-12-19 22:44

Edison 发表于 2011-12-19 22:37
GPU 上的 cache 主要是提供更多的带宽。

这些微架构细节，NVIDIA、AMD 一般都不会提供，需要自己写程序 ...

我知道在这里cache基本上就是充当寄存器溢出缓冲以及显存的快速预取，但毕竟这么多的“cache”看着还是别扭，尤其是ROP里面那几个…………

好吧，你也有日子没玩类似的东西了，来玩玩这个吧，别老搞你那对电路板啦~

作者: 万恶之灵 时间: 2011-12-20 00:17

1080P60FPS编码。。以为是解码。。。

解码的话，Intel和nv早实现了，AMD至今还未...依旧掉帧

作者: Edison 时间: 2011-12-20 09:25

mooncocoon 发表于 2011-12-19 22:44
我知道在这里cache基本上就是充当寄存器溢出缓冲以及显存的快速预取，但毕竟这么多的“cache”看着还是别 ...

我之前在架构区发了一大堆 cache 相关的测试，你没去看而已。

作者: mooncocoon 时间: 2011-12-20 09:58

Edison 发表于 2011-12-20 09:25
我之前在架构区发了一大堆 cache 相关的测试，你没去看而已。

没落下啊，问题是你自己上次做的已经是猴年马月的事了啊

作者: inSeek 时间: 2011-12-20 13:17

GTX999 发表于 2011-12-17 11:49
[w00t> 以后下载机可以扔了哈哈

明显不能扔...我不信用7970这等级卡的用户的整机待机（7970 0W）是能进50W...现在考虑到主力机的数据比下载机重要等等，心疼主力机24*7等等- - 所以下载机还是会存在滴

作者: inSeek 时间: 2011-12-20 13:18

Edison 发表于 2011-12-17 13:03
这有什么难明呀？

NV一直支持的那个功能？

作者: gz_easy 时间: 2011-12-20 14:10

luckissy 发表于 2011-12-17 13:15
[rolleyes> dx11.1难道dx11的卡不支持吗？

DX11.1的某些特性必须要有WDDM1.2 Driver才行。

作者: gz_easy 时间: 2011-12-20 22:30
本帖最后由 gz_easy 于 2011-12-20 22:31 编辑

gz_easy 发表于 2011-12-20 14:10
DX11.1的某些特性必须要有WDDM1.2 Driver才行。

点评

luckissy WDDM1.2 只要DX10级别或以上的显卡安装win8 默认就是WDDM1.2的驱动发表于 2011-12-20 14:40

Win8 in-box driver不一定能提供WDDM 1.2 full function.

作者: 蕊珠 时间: 2011-12-21 11:11
这个规格只能比580强个25.6%了

作者: 蕊珠 时间: 2011-12-21 11:12

GTX999 发表于 2011-12-17 11:51
7950再次定位尴尬如果不能超过580的话
28nm的高频7870都会接近他

7950只要达到800M主频就能超580 4.2%

作者: Travis 时间: 2011-12-21 13:08

fengpc 发表于 2011-12-17 22:31
Optimus已经可以做到GPU完全断电

AMD把一个ALU算作一个CU，比较坑爹啊，为了整出2048CU这个惊人的数字 ...

一个CU对应于Cayman里面一个SIMD的地位，下辖4个Vector Unit和1个Scalar Unit（其余LDS等略），每个Vector Unit包含16个ALU，一个CU里总计64个ALU。

欢迎光临 POPPUR爱换 (https://we.poppur.com/)