AMD 下一代 GPU 架构 Evergreen 讨论专贴

Edison · 发表于 2009-9-14 23:16

以下是 Everygreen 的架构概况：

20 SIMD Cores
——每个 SIMD Cores 包含一个 5D ALUs，共计 1600 ALUs

80 Texture Unit
——每个 SIMD Cores 有 4 个 TU

拥有两个 Rasterizer 单元，Hierarchial-Z 单元也倍增（两个），但是 Geometry/Vertex Assembler依然各为一个
——使用 SIMD Core 执行三角形内插，不再使用独立的硬件单元执行此操作，SIMD Core 为此新增了内插指令（lrp？）

提升了 Constant Buffer 的性能

更快的 Geometry Shader 性能

OpenGL 方面，实现了 12-bit 子像素精度，提升了 Line 的渲染性能以及 clippiing 操作的速度

双精度性能为 544GFLOPS。

IPC 方面的增强
——更灵活的 dot product 指令执行
——能实现单周期 MUL、dependent ADD 指令的 Co-issue
——支持提供 SAD 指令硬件执行，可透过 OpenCL 实现

纹理单元及 cache 方面
——每秒完成 68B 双线性过滤的纹理元素
——每秒完成 272B 32-bit 纹理 fetch
——L1 tex cache 带宽为 1TB/s
——L1 to L2 带宽为 435 GB/s
——每个内存控制器搭配 128KB L2 cache
——支持 16k*16k 纹理
——支持 DX11 的 BC6/7 压缩纹理
——完美无角度相依各向异性纹理过滤，性能衰减度与以前的 AF 算法一致
——理想的细节度调整确保更高的纹理贴图质量

AA 方面，基本上单周期性能总体倍升，不过现在纹理单元可以从压缩的 AA 色彩缓存中读取数据，并且会提供 Supersampling AA（以前只是在 RADEON 8500 公开过）

Stream Computing 方面
——遵循 IEEE 754-2008 精度要求
——提供 NVIDIA GT200 引入的 Coalesces Memory Write
——Scatter 操作可以做到单周期 64 个 32-bit 数值，上一代是 32 个，不过......
——支持 32-bit 原子操作
——可弹性配置的 32KB LDS（各个 SIMD core 一份 LDS，每份 32kB）
——全芯片有一个 GDS（Global Data Share），大小为 64KB
——能实现全局同步
——Append/Consume Buffer

knightmaster · 发表于 2009-9-15 00:20

CHO拿到样卡了？

Edison · 发表于 2009-9-15 00:27

没，我什么都没。

继续探讨，比较值得玩味的是 LDS 的设计，可能会有变成 16KB LDS +16 KB cache 的特性，希望能尽快拿到 program guide，或者我会问问 Mike 。

ic.expert · 发表于 2009-9-15 04:14

本帖最后由 ic.expert 于 2009-9-15 14:55 编辑

使用 SIMD Core 执行三角形内插，不再使用独立的硬件单元执行此操作，SIMD Core 为此新增了内插指令（lrp？）

Interpolation不是一直都是用指令来做的么？在Shader内部调用指令来插值，是Driver来插得指令。关键是Triangle Setup是谁来做？！我这边的资料来看还是Fixed Function了。

ic.expert · 发表于 2009-9-15 04:15

本帖最后由 ic.expert 于 2009-9-15 14:56 编辑

还有一个值得注意的是Append/Consume Buffer在片上缓冲区的尺寸~~

Edison · 发表于 2009-9-15 07:21

http://gathering.tweakers.net/forum/list_messages/1368223/0

Edison · 发表于 2009-9-15 07:50

使用 SIMD Core 执行三角形内插，不再使用独立的硬件单元执行此操作，SIMD Core 为此新增了内插指令（lrp？）

Interpolation不是一直都是用指令来做的么？在Shader内部调用指令来插值，是Driver来插得指令。关键是 ...
ic.expert 发表于 2009-9-15 04:14

我记得 interpolator unit 以前应该是有专门的单元来做的吧。

triangle setup 很显然在 RV870 上也都还是独立的单元来做，只是 double 了。

wyf5970 · 发表于 2009-9-15 08:35

暂时不会集成CPU的但有了DX11的CPU和GPU的协同合作速度大生

Asuka · 发表于 2009-9-15 09:45

使用 SIMD Core 执行三角形内插，不再使用独立的硬件单元执行此操作，SIMD Core 为此新增了内插指令（lrp？）

Interpolation不是一直都是用指令来做的么？在Shader内部调用指令来插值，是Driver来插得指令。关键是Triangle Setup是谁来做？！
ic.expert 发表于 2009-9-15 04:14

setup肯定还是固定单元，这种东西不可能SW的

gz_easy · 发表于 2009-9-15 09:51

本帖最后由 gz_easy 于 2009-9-15 09:52 编辑

有个疑问，RV870是否对DX11有100%支持？估计RV870设计完成时间不会晚于目前DX11规格完成截止时间，据说目前Win7 RTM中的DX11某些规格至今年第一季度尚未完成。

synd · 发表于 2009-9-15 11:01

AMD和微软是同步研发的，应该能够保证完全支持DX11

Rafale · 发表于 2009-9-15 17:44

Edison 发表于 2009-9-15 07:56

cho你能保证这图的真实性吗？原本我也不相信是fake……但是仔细算算ALU Araay，发现居然每边有16组……而不是RV770的10组！而且仔细对照，每组的资源与RV770完全一致，意味着这图上的东西总共有2560个SP，难道是触雷之前的原始版RV870

為蝦米 · 发表于 2009-9-15 19:45

那個die shot 是假的

panjanstoneborg · 发表于 2009-9-16 11:31

昨天一看到那个die的图片就觉得不对劲
rv870目前看来没什么特别的，好像

melo17548030 · 发表于 2009-9-28 17:38

不用独显的路过哈哈！！！

melo17548030 · 发表于 2009-9-28 17:46

下一代应该是CPU集成GPU
Lancelot365 发表于 2009-5-17 14:31

应该正好相反吧？

yhqyhqyhq11 · 发表于 2009-9-29 19:16

下一代应该是CPU集成GPU~~~~~~~~~~!

帐号		自动登录	找回密码
密码			注册

AMD 下一代 GPU 架构 Evergreen 讨论专贴

浏览过的版块