这个真的是k10的测试成绩嘛？

soft · 发表于 2007-9-2 00:27

原帖由 balabalame 于 2007-9-2 00:21 发表

不说不代表没有人和intel AMD有关联，有种东西叫做NDA

谢谢

你的意思是否意味着你也有

我向请问一下这个测试真的就是最终版的K10的水平了嘛？还是真的有大bug导致的

K10超频水平如何，频率能赶上conroe的超频水平嘛？

谢谢

ConroeXE · 发表于 2007-9-2 00:30

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2007-9-2 00:39

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2007-9-2 00:42

提示: 作者被禁止或删除内容自动屏蔽

Prescott · 发表于 2007-9-2 00:47

原帖由 G70 于 2007-9-2 00:42 发表
請大家繼續關注這熱帖，這里的墳的數量絕對可以比得上年度牛人ghrs2010的墳數。

话说这个ghrs2010去哪里了，他好像还欠我500块钱。 :lol:

随便啦 · 发表于 2007-9-2 00:55

原帖由 Prescott 于 2007-9-2 00:47 发表

话说这个ghrs2010去哪里了，他好像还欠我500块钱。 :lol:

在某个A大本营论坛里混着呢

ConroeXE · 发表于 2007-9-2 01:08

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2007-9-2 01:09

提示: 作者被禁止或删除内容自动屏蔽

Prescott · 发表于 2007-9-2 01:19

原帖由 来不及思考 于 2007-9-2 01:09 发表

我无法理解K10所做出的改进和现在表现出来的成绩，也许我对架构根本一窍不通吧 :wacko: :wacko: :wacko:

你觉得有什么改进能够大幅度的提高性能呢？
我记得在K8L第一次放出技术细节的时候我就说AMD大概是想放弃桌面市场了，那个时候也许没人注意把。

[ 本帖最后由 Prescott 于 2007-9-2 01:21 编辑 ]

89度热水 · 发表于 2007-9-2 01:20

我也无法理解，2G的K8再优化下内存预取，估计从IMC读取内存的延迟也就45个cycles，做一个访问需要45cycles延迟的L3有何意义？况且就算AMD的缓存工艺差，就算用K7的工艺水平也不需要这么大的延迟的，除非想做的像NETBUST

mxyou · 发表于 2007-9-2 01:28

现在两路同频的K10还不如45nm的肉，四路上K10又能上到多高的频率

K10居然做成了一个怪胎，根本找不到市场定位了

只看该作者 · 发表于 2007-9-2 01:29

提示: 作者被禁止或删除内容自动屏蔽

itany · 发表于 2007-9-2 01:30

原帖由 89度热水 于 2007-9-2 01:20 发表
我也无法理解，2G的K8再优化下内存预取，估计从IMC读取内存的延迟也就45个cycles，做一个访问需要45cycles延迟的L3有何意义？况且就算AMD的缓存工艺差，就算用K7的工艺水平也不需要这么大的延迟的，除非想做的像 ...

K8*2内存延迟不可能做到50周期的
*2的内存延迟一般都在100周期以上

Prescott · 发表于 2007-9-2 01:45

原帖由 89度热水 于 2007-9-2 01:20 发表
我也无法理解，2G的K8再优化下内存预取，估计从IMC读取内存的延迟也就45个cycles，做一个访问需要45cycles延迟的L3有何意义？况且就算AMD的缓存工艺差，就算用K7的工艺水平也不需要这么大的延迟的，除非想做的像 ...

AMD的内存延时离45cycle还差的太远，45ns还差不多。

L3是绝对必要的，否则对于SRQ和Crossbar的压力实在太大。

Prescott · 发表于 2007-9-2 01:53

原帖由 来不及思考 于 2007-9-2 01:29 发表

指令预取，解码，cache，OOO，浮点单元....

如此大规模的改动，怎么可能 :wacko:

最大的改动就是加宽浮点单元，这个是被Core逼的，不跟不行
其次就是加入了OOO load，这个N年前Intel就实现了

L3是为了4核心引入的，还逼不得已缩小了L2的大小。
其他的地方位宽加宽都是为了配合加宽的浮点单元。

指令调度，执行单元等等都没有任何改动。

还有什么？我记不起来了

itany · 发表于 2007-9-2 01:58

原帖由 Prescott 于 2007-9-2 01:53 发表

最大的改动就是加宽浮点单元，这个是被Core逼的，不跟不行
其次就是加入了OOO load，这个N年前Intel就实现了

L3是为了4核心引入的，还逼不得已缩小了L2的大小。
其他的地方位宽加宽都是为了配合加宽的浮 ...

改进了分支预测，还增加了调用返回的栈
不过应该都是PM都已经有了的

只看该作者 · 发表于 2007-9-2 01:59

提示: 作者被禁止或删除内容自动屏蔽

Prescott · 发表于 2007-9-2 02:02

原帖由 itany 于 2007-9-2 01:58 发表

改进了分支预测，还增加了调用返回的栈
不过应该都是PM都已经有了的

对，indirect branch predict，这个很重要。

不过总之，都是些小改动。如果这些都可以大吹特吹的话，penryn大概也可以大吹一下了，毕竟也改了不少东西吧。

Prescott · 发表于 2007-9-2 02:10

prefetch是双刃剑，用得不好对性能反而有负面影响，关掉prefetch性能更好的例子太多了。
Pefetch也要看算法的，算法不够好，那简直就是添乱。而算法从哪里来的？还不是对无数的代码充分研究分析之后总结出来的。AMD没有这个人力物力搜集分析整理总结这么多代码的，这个是长年累月的总结，不是一天两天能赶得上来的。

不单是prefetch的算法，象是分支预测，指令融合，speculative load，都是这样的。

itany · 发表于 2007-9-2 02:16

本人外行，但是觉得K8的问题不是在与执行资源不足上边，因为Yonah比他的资源少得多，但是面对Yonah还是经常吃败仗。虽然K8看起来执行资源丰富，三个整数发射，三个浮点发射，分别调度，没啥冲突，但是实际上这样资源浪费严重，里边的Buffer加起来挺多，实际上总是一头冷，一头热，ALU的发射口还是和AGU共用的，和P4倒是很像，天生就会造成冲突，再加上AMD糟糕的算法，再怎么堆执行单元有什么用呢？使劲堆执行单元的后果，就是效率提升不上去，但是面积和功耗却涨上去了，频率也上不去。另外堆缓存也是一样的，既然没有Intel这样关闭不用的L2区域的技术，还使劲加L3，就等着功耗上去吧。况且L3并不只是减小不同核心之间的通信，他也增加了内存访问的延迟。事情都是有两面性的。现在Intel这边内存延迟已经“糟透了”，无所谓了，AMD缓存算法那么废，可是就指着内存延迟小活着呢，延迟增加是要命的。
AMD光盯着出了功耗问题的P4在那里窃喜和叫嚣，殊不知Intel还有团队在P6上边继续努力。Netburst的五年，P6是没有荒废的。况且本身P3就是优于K7的，只是内存带宽制约了P3的性能发挥。如果AMD不下决心铲除了现在这个架构，只小修小补，只能是越来越糟。

帐号		自动登录	找回密码
密码			注册

ConroeXE ConroeXE 当前离线积分 5 IP卡狗仔卡头像被屏蔽	242^# 发表于 2007-9-2 00:30 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
ConroeXE ConroeXE 当前离线积分 5 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

G70 该用户已被删除	243^# 发表于 2007-9-2 00:39 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
G70 该用户已被删除
	回复支持反对使用道具举报显身卡

G70 该用户已被删除	244^# 发表于 2007-9-2 00:42 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
G70 该用户已被删除
	回复支持反对使用道具举报显身卡

ConroeXE ConroeXE 当前离线积分 5 IP卡狗仔卡头像被屏蔽	247^# 发表于 2007-9-2 01:08 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
ConroeXE ConroeXE 当前离线积分 5 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

这个真的是k10的测试成绩嘛？

回复 #256 Prescott 的帖子

浏览过的版块

来不及思考该用户已被删除	248^# 发表于 2007-9-2 01:09 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	252^# 发表于 2007-9-2 01:29 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	257^# 发表于 2007-9-2 01:59 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡