POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Edison
打印 上一主题 下一主题

AMD 下一代 GPU 架构 Evergreen 讨论专贴

 关闭 [复制链接]
101#
 楼主| 发表于 2009-9-14 23:16 | 只看该作者
以下是 Everygreen 的架构概况:

20 SIMD Cores
——每个 SIMD Cores 包含一个  5D ALUs,共计 1600 ALUs

80 Texture Unit
——每个 SIMD Cores 有 4 个 TU

拥有两个 Rasterizer 单元,Hierarchial-Z 单元也倍增(两个),但是 Geometry/Vertex Assembler依然各为一个
——使用 SIMD Core 执行三角形内插,不再使用独立的硬件单元执行此操作,SIMD Core 为此新增了内插指令(lrp?)

提升了 Constant Buffer 的性能

更快的 Geometry Shader 性能

OpenGL 方面,实现了 12-bit 子像素精度,提升了 Line 的渲染性能以及 clippiing 操作的速度

双精度性能为 544GFLOPS。

IPC 方面的增强
——更灵活的 dot product 指令执行
——能实现单周期 MUL、dependent ADD 指令的 Co-issue
——支持提供 SAD 指令硬件执行,可透过 OpenCL 实现

纹理单元及 cache 方面
——每秒完成 68B 双线性过滤的纹理元素
——每秒完成 272B 32-bit 纹理 fetch
——L1 tex cache 带宽为 1TB/s
——L1 to L2 带宽为 435 GB/s
——每个内存控制器搭配 128KB L2 cache
——支持 16k*16k 纹理
——支持 DX11 的 BC6/7 压缩纹理
——完美无角度相依各向异性纹理过滤,性能衰减度与以前的 AF 算法一致
——理想的细节度调整确保更高的纹理贴图质量

AA 方面,基本上单周期性能总体倍升,不过现在纹理单元可以从压缩的 AA 色彩缓存中读取数据,并且会提供 Supersampling AA(以前只是在 RADEON 8500 公开过)

Stream Computing 方面
——遵循 IEEE 754-2008 精度要求
——提供 NVIDIA GT200 引入的 Coalesces Memory Write
——Scatter 操作可以做到单周期 64 个 32-bit 数值,上一代是 32 个,不过......
——支持 32-bit 原子操作
——可弹性配置的 32KB LDS(各个 SIMD core 一份 LDS,每份 32kB)
——全芯片有一个 GDS(Global Data Share),大小为 64KB
——能实现全局同步
——Append/Consume Buffer
回复 支持 反对

使用道具 举报

102#
发表于 2009-9-15 00:20 | 只看该作者
CHO拿到样卡了?
回复 支持 反对

使用道具 举报

103#
 楼主| 发表于 2009-9-15 00:27 | 只看该作者
没,我什么都没。


继续探讨,比较值得玩味的是 LDS 的设计,可能会有变成 16KB LDS +16 KB cache 的特性,希望能尽快拿到 program guide,或者我会问问 Mike 。
回复 支持 反对

使用道具 举报

104#
发表于 2009-9-15 04:14 | 只看该作者
本帖最后由 ic.expert 于 2009-9-15 14:55 编辑

使用 SIMD Core 执行三角形内插,不再使用独立的硬件单元执行此操作,SIMD Core 为此新增了内插指令(lrp?)

Interpolation不是一直都是用指令来做的么?在Shader内部调用指令来插值,是Driver来插得指令。关键是Triangle Setup是谁来做?!我这边的资料来看还是Fixed Function了。
回复 支持 反对

使用道具 举报

105#
发表于 2009-9-15 04:15 | 只看该作者
本帖最后由 ic.expert 于 2009-9-15 14:56 编辑

还有一个值得注意的是Append/Consume Buffer在片上缓冲区的尺寸~~
回复 支持 反对

使用道具 举报

106#
 楼主| 发表于 2009-9-15 07:21 | 只看该作者
回复 支持 反对

使用道具 举报

107#
 楼主| 发表于 2009-9-15 07:50 | 只看该作者
使用 SIMD Core 执行三角形内插,不再使用独立的硬件单元执行此操作,SIMD Core 为此新增了内插指令(lrp?)

Interpolation不是一直都是用指令来做的么?在Shader内部调用指令来插值,是Driver来插得指令。关键是 ...
ic.expert 发表于 2009-9-15 04:14


我记得 interpolator unit 以前应该是有专门的单元来做的吧。

triangle setup 很显然在 RV870 上也都还是独立的单元来做,只是 double 了。
回复 支持 反对

使用道具 举报

108#
发表于 2009-9-15 08:35 | 只看该作者
暂时不会集成CPU的 但有了DX11的CPU和GPU的协同合作 速度大生
回复 支持 反对

使用道具 举报

109#
发表于 2009-9-15 09:45 | 只看该作者
使用 SIMD Core 执行三角形内插,不再使用独立的硬件单元执行此操作,SIMD Core 为此新增了内插指令(lrp?)

Interpolation不是一直都是用指令来做的么?在Shader内部调用指令来插值,是Driver来插得指令。关键是Triangle Setup是谁来做?!
ic.expert 发表于 2009-9-15 04:14


setup肯定还是固定单元,这种东西不可能SW的
回复 支持 反对

使用道具 举报

110#
发表于 2009-9-15 09:51 | 只看该作者
本帖最后由 gz_easy 于 2009-9-15 09:52 编辑

有个疑问,RV870是否对DX11有100%支持?估计RV870设计完成时间不会晚于目前DX11规格完成截止时间,据说目前Win7 RTM中的DX11某些规格至今年第一季度尚未完成。
回复 支持 反对

使用道具 举报

111#
发表于 2009-9-15 11:01 | 只看该作者
AMD和微软是同步研发的,应该能够保证完全支持DX11
回复 支持 反对

使用道具 举报

112#
发表于 2009-9-15 17:44 | 只看该作者

Edison 发表于 2009-9-15 07:56

cho你能保证这图的真实性吗?原本我也不相信是fake……但是仔细算算ALU Araay,发现居然每边有16组……而不是RV770的10组!而且仔细对照,每组的资源与RV770完全一致,意味着这图上的东西总共有2560个SP,难道是触雷之前的原始版RV870
回复 支持 反对

使用道具 举报

113#
发表于 2009-9-15 19:45 | 只看该作者
那個die shot 是假的
回复 支持 反对

使用道具 举报

114#
发表于 2009-9-16 11:31 | 只看该作者
昨天一看到那个die的图片就觉得不对劲
rv870目前看来没什么特别的,好像
回复 支持 反对

使用道具 举报

115#
发表于 2009-9-28 17:38 | 只看该作者
不用独显的 路过 哈哈!!!
回复 支持 反对

使用道具 举报

116#
发表于 2009-9-28 17:46 | 只看该作者
下一代应该是CPU集成GPU
Lancelot365 发表于 2009-5-17 14:31


应该正好相反吧?
回复 支持 反对

使用道具 举报

117#
发表于 2009-9-29 19:16 | 只看该作者
下一代应该是CPU集成GPU~~~~~~~~~~!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-28 20:38

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表