按现在费米和H5XXX的情况看是不是表明ATI在统一渲染架构方向选对了路了！

charlieviva · 发表于 2010-3-25 13:42

不是很懂求求证。当年在统一渲染架构中A和N分道扬镳了。怎么感觉A卡方向对了，从H4XXX系列到H5XXX系列N卡都很被动（技术上，商业操作手法除外），现在费米发布前都没有了以前N皇卡发布的那种霸气了。（8800U那时候牛啊，价格天文数字）本贴只是讨论下发展走向问题，请自重！

引用：

　　AMD的解决方法是将原有的4D矢量运算拓展到4D矢量+1D标量架构，并命名为Supersclar（超标量），而4D+1D的运算架构也一直使用至现在的DX11显卡上。AMD的Supersclar架构在一个周期内可以进行5次矢量运算或者一次标量+一次矢量运算，而且5D指令只需要一个发射端口，每个流处理器所需的晶体管较少，设计难度也大大减小，缺陷依然是遇到标量运算时效率降低，AMD通过大幅增加流处理器单元的数量并增加分支预测单元（Branch Execution Unit）改善指令分配问题，在驱动设计上要付出更多努力。

AMD的Superscalar架构沿用至今

　　与AMD的循序渐进相比，NVIDIA的解决方式更有革命性。NVIDIA的首款DX10架构G80中使用了标量设计，所有运算不管是4D矢量、3D+1D、2D+2D或者1D标量全都转为标量计算，这样标量运算中效率一直为100%，不过矢量运算中也存在着效率下降的问题，因为G80一个周期内只能执行一次运算，执行4D矢量需要四个周期才能完成。NVIDA采用异步架构将流处理器的频率与核心频率分离，流处理器的频率大幅提升至1.3G以上，几乎达到了核心频率的两倍，即使是4D矢量运算速度也有保证。

　　NVIDIA的标量流处理器无异于一次突破，此后的游戏以及通用计算程序中证明了此架构的优秀。除了频率提高一倍的流处理器弥补了数量上的劣势外，最主要的还是全标量架构的高执行效率，G80中每个指令都可以1D标量进行运算，利用率可以一直保持在100%，而AMD的4D+1D架构需要将指令组合成适合5D运算的VLIW（超长指令）才能保证充分利用所有流处理器，一旦重组不成功或者指令不适合重组，那就无法发挥出流处理器数量众多的优势，因此AMD显卡的理论浮点运算能力非常强劲，但在实际应用中相比NVIDIA的显卡并不突出，甚至有所不如，从Folding@home中的贡献排名中也一窥而知。

典型肺炎 · 发表于 2010-3-25 13:44

那倒不见得哦，6xxx这代发布延迟，如果费米2速度远比费米1发布快，下次杯具的估计就是AMD

chinayyj · 发表于 2010-3-25 13:48

通用计算还是NV强啊！起码在软件方面可能及时跟上。看看有多少软件支持CUDA就知道了！

stcshy_3 · 发表于 2010-3-25 13:59

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2010-3-25 14:00

提示: 作者被禁止或删除内容自动屏蔽

fuxingchina · 发表于 2010-3-25 14:02

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2010-3-25 14:06

G80 架构也是向量架构，向量宽度为 32 D，具体的看本站的 LARRABEE 架构文章以及架构区的相关讨论。

目前并不存在标量的 GPU 架构。

只看该作者 · 发表于 2010-3-25 14:08

提示: 作者被禁止或删除内容自动屏蔽

ft5555 · 发表于 2010-3-25 14:13

amd做的是带有通用计算功能的3d显卡

nv做的是带有3d加速功能的通用处理器

liuxiao8606 · 发表于 2010-3-25 14:23

通用计算还是NV强啊！起码在软件方面可能及时跟上。看看有多少软件支持CUDA就知道了！
chinayyj 发表于 2010-3-25 13:48

真要数一数的话。。。。

kycx3000 · 发表于 2010-3-25 14:27

通用计算还是NV强啊

MINORIN · 发表于 2010-3-25 14:46

于是现在N饭都很需要通用计算
A饭老老实实玩游戏就够了

鱼儿水中游 · 发表于 2010-3-25 15:07

N饭还得算蛋白质啊。

Edison · 发表于 2010-3-25 15:09

G80一个TPC里一共才有16个SP，怎会是32D？
纳尼？发表于 2010-3-25 14:48

http://www.pcinlife.com/article/ ... 5662175d828_16.html

此外，我们如果稍微了解 CUDA 的话，就可以知道 CUDA 里有 thread、warp、thread block（又被称作 CTA）这样的线程单位，其中 warp 其实是一个微架构上的东西，在编写程序的时候，程序员会写代码定义 thread block 和 thread 的大小，但是不会定义 warp。

Warp 是 thread block 被发送到内核（即 SM）的时候才会被切出来，SM 内的调度器以 warp 为单位把线程发射到 SIMD 运算器上执行，warp 的大小限制依照微架构的不同而不同。

在 G8x/G9x 上 Warp 最多是 32 个 thread，每个 thread block 最多可以切出 24 个 warp，而在 GT200 或者说 T10P 上 warp 的都是一样最大为 32 thread，但是一个 thread block 可以切出最多 32 个 warp。

warp 的宽度就是 G80 SIMD 宽度。

asdfjkl · 发表于 2010-3-25 15:16

不是很懂求求证。当年在统一渲染架构中A和N分道扬镳了。怎么感觉A卡方向对了，从H4XXX系列到H5XXX系列N卡都 ...
charlieviva 发表于 2010-3-25 13:42

从架构上看，现在AMD就是原来R600继承来的；和前面失败的几代本质上没有太大不同。就是塞进去更多的核心；修补了bug.
10个一碗的饺子，您吃起来觉得味道不好；现在来了一个大腕的20个的，您吃起来猛说：师傅现在手艺了得了！
所以这帖子的观点难以接受。

asdfjkl · 发表于 2010-3-25 15:17

amd做的是带有通用计算功能的3d显卡

nv做的是带有3d加速功能的通用处理器
ft5555 发表于 2010-3-25 14:13

就现在5xxx目前领先了，你就这样的结论；不知道在这个系列之前你这话是怎么讲的？

asdfjkl · 发表于 2010-3-25 15:18

回复 2# 典型肺炎

fermi2会很快的，当然名字也不是fermi2.

charlieviva · 发表于 2010-3-25 15:33

从架构上看，现在AMD就是原来R600继承来的；和前面失败的几代本质上没有太大不同。就是塞进去更多的核心 ...
asdfjkl 发表于 2010-3-25 15:16

你的例子很贴切生活，但我就不明白了。费米也是用40nm而且是同一个厂。A能越塞越好（晶体管），N卡就越塞越没劲？
架构方向的对错就是要看后续的发展的，刚开始失败应该不能说明架构失败吧。
厨师煮饺子也有个娴熟过程吧。你不能因为他一年前煮给你吃的饺子不好吃就断定人家不是个好厨师吧！

hakase · 发表于 2010-3-25 15:39

NV的悲剧主要发生在工艺上，架构其实还是很好的

Edison · 发表于 2010-3-25 15:39

G80 一个 SM 是 8 个 CUDA core，执行一个 warp 所需要的时间是 4 个周期。
R600 一个 SIMD Engine 是 16 个 5D VLIW，执行一个 wavefront 所需要的时间是 4 个周期。

Warp 和 wavefront 的宽度都是随着微架构的不同而不同（目前上大家还保持在 G80、R600 的水平上），并且是相对固定的，最大、最小这两个词其实都不是很适用在上面。

帐号		自动登录	找回密码
密码			注册

stcshy_3 stcshy_3 当前离线积分 5 IP卡狗仔卡头像被屏蔽	4^# 发表于 2010-3-25 13:59 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
stcshy_3 stcshy_3 当前离线积分 5 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

pharaohs1024 该用户已被删除	5^# 发表于 2010-3-25 14:00 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
pharaohs1024 该用户已被删除
	回复支持反对使用道具举报显身卡

fuxingchina fuxingchina 当前离线积分 17 IP卡狗仔卡头像被屏蔽	6^# 发表于 2010-3-25 14:02 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
fuxingchina fuxingchina 当前离线积分 17 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

pharaohs1024 该用户已被删除	8^# 发表于 2010-3-25 14:08 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
pharaohs1024 该用户已被删除
	回复支持反对使用道具举报显身卡

按现在费米和H5XXX的情况看是不是表明ATI在统一渲染架构方向选对了路了！

浏览过的版块