POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: codxk
打印 上一主题 下一主题

G80与PS3的RSX和XO的C1的数据图!

[复制链接]
201#
发表于 2006-11-17 22:55 | 只看该作者
哈哈哈,IBM又一丑事————真的感觉SONY被卖了,还帮别人数钱。
回复 支持 反对

使用道具 举报

202#
发表于 2006-11-17 23:12 | 只看该作者
原帖由 complexmind 于 2006-11-17 22:55 发表
哈哈哈,IBM又一丑事————真的感觉SONY被卖了,还帮别人数钱。

其实cache miss了 要承受额外Cache 本身的延迟  然后+上其他外部延迟 比如前端总线,北桥,内存本身
K8还好 内置内存控制器,外部基本就只剩下内存本身了
好歹K8可以作到90%的命中。。不命中,CPU还可以乱序执行先干别的
PPE/SPE都是有序的,抓不到数据就停下了。本意是通过软件的方式,避免cache miss,减少性能损失。
但是事实上它真的比cache更可靠么 =.= .全都交给编译器 #万一编译器不可靠 难道让程序员自己去优化MFC的动作?
回复 支持 反对

使用道具 举报

203#
发表于 2006-11-18 00:57 | 只看该作者
GDDR3 700MHz的CAS Latency值都上10+ Cycle了,还拿来和XDR比。

1/700MHz=14ns,CAS Latency = 10cycle = 140ns。
回复 支持 反对

使用道具 举报

204#
发表于 2006-11-18 07:07 | 只看该作者
cell 还有低效率的 环形总线呢, 效率 降低 一半。 在 高 延迟的xdr 上, 延迟 再加 50%。
回复 支持 反对

使用道具 举报

205#
发表于 2006-11-18 08:34 | 只看该作者
原帖由 ayanamei 于 2006-11-17 23:12 发表
其实cache miss了 要承受额外Cache 本身的延迟  然后+上其他外部延迟 比如前端总线,北桥,内存本身
K8还好 内置内存控制器,外部基本就只剩下内存本身了
好歹K8可以作到90%的命中。。不命中,CPU还可以乱序执行先干别的
PPE/SPE都是有序的,抓不到数据就停下了。本意是通过软件的方式,避免cache miss,减少性能损失。
但是事实上它真的比cache更可靠么 =.= .全都交给编译器 #万一编译器不可靠 难道让程序员自己去优化MFC的动作?


MFC的控制至少比無從控制只能猜的cache策略有一點希望。
software optimize不在於效率絕對,只在於控制性。
自己去optimize MFC的動作沒什麼問題啊,MFC至少不會自己亂跑;
Cache可是會自己分頁換頁的。

你們怎麼都對Cell給worst case,對普通CPU給better case?
就因為習慣?

[ 本帖最后由 Eji 于 2006-11-18 08:36 编辑 ]
回复 支持 反对

使用道具 举报

206#
发表于 2006-11-18 08:55 | 只看该作者
原帖由 ayanamei 于 2006-11-9 20:56 发表
物理引擎,现阶段主流PC,X-BOX,PS3都是由CPU完成的。
现在不管是PS3,还是X-BOX还是PC都不具备PPU着么高的FLOP/S ,CPU的特性和它有本质的不同,别把DSP和CPU混在一起讨论。要说PS3 SPE比较接近,但是和PPU还是有相当的差距 如果完全跑PPU的工作量,PS3啥也别干了。别忘了CPU还有相当大的Cache缓解总线压力


PPU我記得是Cache結構階層很多,所以cache頻寬很大(2TB/s相當,Ageia人員訪談透露),
但是peak performance似乎只有30GFLOPs?(話說這個數據好像是ATI給的,我該信嗎)
回复 支持 反对

使用道具 举报

207#
发表于 2006-11-18 09:25 | 只看该作者
原帖由 PS5 于 2006-11-13 19:17 发表

c1的ps比RSX没优势?假设当初RSX的显存位宽为192bit,可能带宽就不会那么吃紧了


照樣吃緊,因為RSX沒有FP10這種format,要做FP HDR就得遇上64bit Framebuffer。
RSX要是有G80的ROP就好了,color/Z compression比率上升兩倍,還外加Z-fill也兩倍.... XD
整個就是只有一個快字。

不過其實這也不是很大的問題,除去FP-HDR & AA之外,RSX也沒什麼ROP真的吃重到8ROP/128bit搞不定的東西。
會想要G8x等級的ROP,其實也只是想在這個bandwidth裡面實現FP HDR而已。

話說回來,C1的PS和RSX比沒優勢是develop的實測結果。
C1的free AA和z/stencil performance都很驚人,不過這些都是和Pixel Shader獨立的。
回复 支持 反对

使用道具 举报

208#
发表于 2006-11-18 09:48 | 只看该作者
原帖由 Eji 于 2006-11-18 08:34 发表


MFC的控制至少比無從控制只能猜的cache策略有一點希望。
software optimize不在於效率絕對,只在於控制性。
自己去optimize MFC的動作沒什麼問題啊,MFC至少不會自己亂跑;
Cache可是會自己分頁換頁的。 ...

关键就是compiler
如果完全给程序员去做这个 可靠性是肯定的
但是就有一个工作量的问题
过多的把程序员的精力和时间都浪费在IO方面
而不是程序本身和算法上 不是有些本末倒置么

[ 本帖最后由 ayanamei 于 2006-11-18 09:53 编辑 ]
回复 支持 反对

使用道具 举报

209#
发表于 2006-11-18 09:51 | 只看该作者
原帖由 Edison 于 2006-11-18 00:57 发表
GDDR3 700MHz的CAS Latency值都上10+ Cycle了,还拿来和XDR比。

1/700MHz=14ns,CAS Latency = 10cycle = 140ns。

所以那东西只能用在GPU这种类型的应用上
住内存 从DDR升级到DDRII 在频率彪上667 800之前 还不足以弥补latency带来的损失
回复 支持 反对

使用道具 举报

210#
发表于 2006-11-18 11:00 | 只看该作者
原帖由 ayanamei 于 2006-11-18 09:51 发表
所以那东西只能用在GPU这种类型的应用上
住内存 从DDR升级到DDRII 在频率彪上667 800之前 还不足以弥补latency带来的损失


xbox360主内存用的是GDDR3 700MHz。
回复 支持 反对

使用道具 举报

211#
发表于 2006-11-18 11:54 | 只看该作者
原帖由 Edison 于 2006-11-18 11:00 发表


xbox360主内存用的是GDDR3 700MHz。

X-BOX360的CPU多少cache?3个64k L1+1MB L2
而且支持乱序执行
就算cache miss 最终的损失也不会很大
回复 支持 反对

使用道具 举报

212#
发表于 2006-11-18 12:00 | 只看该作者
原帖由 ayanamei 于 2006-11-18 11:54 发表

X-BOX360的CPU多少cache?3个64k L1+1MB L2
而且支持乱序执行
就算cache miss 最终的损失也不会很大


CELL具备512KB L2 cache + 1.8MB LS,NUMA方式,环路总线具备硬件cache/内存一致性。

谁告诉你XCPU是OoOE的?

XCPU的L2 cache miss是500个周期以上。
回复 支持 反对

使用道具 举报

213#
发表于 2006-11-18 12:15 | 只看该作者
原帖由 Edison 于 2006-11-18 12:00 发表


CELL具备512KB L2 cache + 1.8MB LS,NUMA方式,环路总线具备硬件cache/内存一致性。

谁告诉你XCPU是OoOE的?

XCPU的L2 cache miss是500个周期以上。

根据OOOE是根据PowerPC 790的资料的猜测
X-BOX360 CPU貌似我这里的资料只宣称是PowerPC Base. 在拿到新的准确资料之前 我只能这样猜测
至于L2 cache miss 好像公布出来的是525cyc
如果不是OOOE那确实够呛.
你的意思是EIB本身也具备Cache? 这个倒是没听说过 也不太理解用意
PPE有32K L1 +512K L2是已知的
关于CELL的质疑就是在这个SPE的LS上,已知SPE,PPE都是IOE.
LS完全是由MFC控制,这个东西靠编译器是否真的能回避memory latency,满足和SPU.
如果让deverloper来控制干这个,那么肯定可靠,毕竟人是活的
但是让compiler来干 恐怕就不那么保险了吧. 对此保持悲观态度
回复 支持 反对

使用道具 举报

214#
发表于 2006-11-18 12:35 | 只看该作者
原帖由 ayanamei
2006-11-18 12:15 发表

根据OOOE是根据PowerPC 790的资
料的猜测
X-BOX360 CPU貌似我这里的资料只
宣称是PowerPC Base. 在拿到新的准
确资料之前 我只能这样猜测
至于L2 cache miss 好像公布出来的
是525cyc
如果不是OOOE那确实够呛. ...

大姊,X360是三個VMX改成128reg
的PPE組成的,照樣是循序結構。
我對MFC以compiler控制還挺有信心
的,只對工作分配沒把握而已。
回复 支持 反对

使用道具 举报

215#
发表于 2006-11-18 12:39 | 只看该作者
关键是看你怎么使用SPE,例如我以前提到的使用电脑视觉分析方式作AI处理,这点绝对是PPE的弱项,如果你做程序员的话,除了给SPE塞不合适的代码外,难道就不能想出一些让XCPU死掉但是CELL却可以生龙活虎的代码吗?
回复 支持 反对

使用道具 举报

216#
发表于 2006-11-18 13:07 | 只看该作者
原帖由 Edison 于 2006-11-18 12:39 发表
关键是看你怎么使用SPE,例如我以前提到的使用电脑视觉分析方式作AI处理,这点绝对是PPE的弱项,如果你做程序员的话,除了给SPE塞不合适的代码外,难道就不能想出一些让XCPU死掉但是CELL却可以生龙活虎的代码吗?

贵根揭底又绕回原点
CELL要用好,程序员得花不少心思

现在PS3首发的这些软件素质确实不怎么D
估计和这个肯定是脱不开关系的
不知道PS3这些一线支持厂商的程序组是否在终日加班加点中...
回复 支持 反对

使用道具 举报

217#
发表于 2006-11-18 13:35 | 只看该作者
累死程序员是SONY的一贯作风呢!话说回来,连第一批拿到刀板的人都只能有限度的乐观,估计就只是给IBM面子了
原文:replacing pointer deferences with DMA is usually slow ?So it is。
强过compiler的程序员不可能多,否则那还要compiler干什么??
CEll的设计导向就是顺序执行,要是现在对Cell的编译器对乱序执行完美了,那Intel的反超线程不也早出来了??(_( (_( (_(
回复 支持 反对

使用道具 举报

218#
发表于 2006-11-18 14:03 | 只看该作者
原帖由 ayanamei 于 2006-11-18 13:07 发表

贵根揭底又绕回原点
CELL要用好,程序员得花不少心思

现在PS3首发的这些软件素质确实不怎么D
估计和这个肯定是脱不开关系的
不知道PS3这些一线支持厂商的程序组是否在终日加班加点中...



:lol: 而且绝对每天提心吊胆,担心PS3会不会挂掉,不然几年的学习和积累就白费了
回复 支持 反对

使用道具 举报

219#
发表于 2006-11-18 14:07 | 只看该作者
原帖由 popwangyuII 于 2006-11-18 14:03 发表



:lol: 而且绝对每天提心吊胆,担心PS3会不会挂掉,不然几年的学习和积累就白费了

这个倒不会 多线程的环境是必然的
这个就当高强度的训练吧.
然后CELL的用处不光只是在PS3上,别的平台也未必有这么极端
IBM花了这么大精力不会让至于CELL死掉
CELL能用的地方还是很多的么
PS3死活就是SONY自己的事情了
回复 支持 反对

使用道具 举报

220#
发表于 2006-11-18 14:14 | 只看该作者
原帖由 ayanamei 于 2006-11-18 14:07 发表

这个倒不会 多线程的环境是必然的
这个就当高强度的训练吧.
然后CELL的用处不光只是在PS3上,别的平台也未必有这么极端
IBM花了这么大精力不会让至于CELL死掉
CELL能用的地方还是很多的么
PS3死活就是 ...



:lol: :lol: :lol:
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-2-3 01:12

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表