POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 5429|回复: 23
打印 上一主题 下一主题

醒悟了, C1定了几年的flops其实是错的。

[复制链接]
RacingPHT 该用户已被删除
跳转到指定楼层
1#
发表于 2007-4-30 13:05 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
2#
发表于 2007-4-30 13:09 | 只看该作者
哦?你实际测试出来的?
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
3#
 楼主| 发表于 2007-4-30 13:12 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

4#
发表于 2007-4-30 13:14 | 只看该作者
这个只是ISA层面的,硬件上的做法未必一样。
回复 支持 反对

使用道具 举报

5#
发表于 2007-4-30 13:18 | 只看该作者
我查阅了Microsoft的paper,的确是:

48 ALUs
simultaneous vector, scalar ops
16 vertex & 16 texture fetch
96 shader instr/cycle ( 48 Ginstr/s) - 12 instr/pix fill rate
32-bit IEEE FP (VS & PS)
216 GFLOPS (theory)
168 GFLOPS (Vtransform)
they are arranged in 3 banks of 16 ALUs in SIMD
64 threads (HW), 16x64 Vertex vectors, 48x64 Pixel Vectors
Balancing vertex vs pixel shader perf
回复 支持 反对

使用道具 举报

6#
发表于 2007-4-30 21:15 | 只看该作者
:funk:  虚假宣传
回复 支持 反对

使用道具 举报

7#
发表于 2007-4-30 22:25 | 只看该作者
原帖由 Edison 于 2007-4-30 13:18 发表
我查阅了Microsoft的paper,的确是:

48 ALUs
simultaneous vector, scalar ops
16 vertex & 16 texture fetch
96 shader instr/cycle ( 48 Ginstr/s) - 12 instr/pix fill rate
32-bit IEEE FP (VS & P ...


这个比RSX强吗?:o
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
8#
 楼主| 发表于 2007-5-1 09:30 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

9#
发表于 2007-5-1 09:38 | 只看该作者
怎么对这个感兴趣呢:)
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
10#
 楼主| 发表于 2007-5-1 09:47 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

11#
发表于 2007-5-2 03:45 | 只看该作者
話說有趣的部分:
http://pc.watch.impress.co.jp/docs/2005/0526/kaigai183.htm
這裡面的資訊反而是說,"216GFLOPS 更正到 240GFLOPS"。

 ちなみに、前のレポートでは、Microsoftからの情報をもとに、ベクタFPUが1サイクルで積和算の2オペレーション、スカラFPUが1サイクルで加算の1オペレーションで、1 Shaderで1サイクル当たり最大9の浮動小数点演算オペレーションで、Shader演算性能は最大216GFLOPSと性能について書いた。しかし、 Microsoftが後に出した資料では、最大で5wayベクタで1サイクル2オペレーション、Shader演算性能は最大240GFLOPSと修正されている。

到底哪個是新版的呢....XD
回复 支持 反对

使用道具 举报

12#
发表于 2007-5-2 09:23 | 只看该作者
原帖由 Eji 于 2007-5-2 03:45 发表
話說有趣的部分:
http://pc.watch.impress.co.jp/docs/2005/0526/kaigai183.htm
這裡面的資訊反而是說,"216GFLOPS 更正到 240GFLOPS"。

 ちなみに、前のレポートでは、Microsoftからの情報をもとに、ベ ...


应该是是microsoft为准了。
回复 支持 反对

使用道具 举报

13#
发表于 2007-5-2 09:53 | 只看该作者
其实很早的时候b3d的jawed就说了这个问题了:)
jawed大概是最早把SDK内容外泄的人了,比如什么shader exp用法,scalar无mad,C1无FP16 blending,FP16 filter用的是INT16+INT16等等……:wacko:

[ 本帖最后由 hourousha 于 2007-5-2 10:58 编辑 ]
回复 支持 反对

使用道具 举报

14#
发表于 2007-5-2 10:01 | 只看该作者
但显然多数人不认为这是很大不了的事情,本来scalar的主要任务就是rsq,exp那些工作。而这些指令的flops同样无人关心。:lol:
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
15#
发表于 2007-5-2 10:21 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

16#
发表于 2007-5-2 10:33 | 只看该作者
原帖由 来不及思考 于 2007-5-2 10:21 发表


开平方这些比较复杂的数学运算在现在的shader里还是用得很少吧

应用很普遍啊,从SM_2时代开始
所以,R3xx-R5xx的那些可以co-issue的scalar unit的存在,其根本任务不是为了通过co-issue提高什么指令并行,而在于补全指令。

其实较真的话,sin可以算6-7个flops了(当初R3xx就是7个周期sincos,应该用的是收敛级数法)但显然不是所有人都和西川大叔或者后藤大爷一样恨不得把nrm_pp都拉出来算flops w00t)
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
17#
发表于 2007-5-2 10:46 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

18#
发表于 2007-5-2 10:53 | 只看该作者
不是有GPUBench么?看指令发射率就成了呗。G80是每个SP中都带个SFU么?好像也不是。
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
19#
 楼主| 发表于 2007-5-2 10:58 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

20#
发表于 2007-5-2 11:06 | 只看该作者
原帖由 RacingPHT 于 2007-5-2 10:58 发表
是啊, OP/s比较重要. 对于SF, 现在的产品都是采用80/20法则.
另外, 对于LS的那个问题, R6xx的所有SF应该都是单周期pipeline化才行?

我想R600中代替原先的结构scalar unit的那个东西(粗的那个),大概应该不会和原来相比有什么大变化。所以应该是 1 cycle throughput的。
所以R600的复杂指令发射率基本就应该是把原先结构的发射率按照64组和更高频率来放大。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2026-2-2 03:50

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表