POPPUR爱换

标题: AMD处理器的体系架构技术方面不行 [打印本页]

作者: hopetoknow2 时间: 2006-8-28 20:09
标题: AMD处理器的体系架构技术方面不行
ACM和IEEE的Computer Society是在目前计算机技术领域中最重要、最有影响力的两大权威机构
专门在处理器体系架构方面，设立的最高奖项为ACM的Eckert-Mauchly Award奖。看处理器体系架构，得一万个形形色色的所谓的"奖", 都不如一个Eckert-Mauchly Award奖说明问题，10年来的得主分别为：

2005年 Colwell, Robert P. Intel，P6(Pentium pro/II/III)和Pentium4是Intel在俄勒冈的研究团队创造

2004 Brooks, Frederick P. 老资历，老到－－是他最早定义了计算机体系架构computer architecture，意识到它是一个独立的"新"学科。

2003 Fisher, Joseph A. (Josh) HP， VLIW先驱，和EPIC之间巨大联系

2002 Rau, B. Ramakrishna (Bob) HP， VLIW先驱, 和EPIC之间巨大联系

2001 Hennessy, John MIPS架构

2000 Davidson, Edward 老资历，是他提出流水线结构

1999 Smith, James E. Pentium 4 是一款Trace processor

1998 Watanabe, T. 向量机的multiple/parallel vector pipelines and programmable vector caches.

1997 Tomasulo, Robert IBM，提出Tomasulo算法，OoO乱序执行

2005 Colwell, Robert P.是P6和Pentium4的总设计师，领导Intel在俄勒冈的研究团队开发P6和Pentium4。
2003 Fisher, Joseph A.和2002 Rau, B. Ramakrishna的都是HP力推VLIW的，VLIW实际上是Intel的IA64 EPIC的祖宗。
1999 Smith, James E.当时Smith, James是研究Trace processor的权威。

对计算机体系架构方面真正作出巨大贡献，除了大学里的学者也就是Intel、HP、IBM之类的超一流企业，才有这个人才和技术水准。

可惜，找了半天，也没找到半个AMD的人，要谈计算机体系架构的技术深远重大贡献和影响，AMD太苍白一点，总爱自称技术领先的AMD，怎么除了那些“假专业人士”、A pro或商业网站，一旦到了真正的体系架构专业大大面前，反而搞得没它AMD什么事了？

AMD和Intel在技术实力上，根本就不是同档次的企业。奉劝A Pro一句，走正道，真要玩技术，还是跟着Intel、IBM之流。小白才信“假专业人士”、A pro或商业网站的一些胡说八道。

作者: h2o3king 时间: 2006-8-28 20:31
呵呵,有趣,顶了
实际上德州仪器在u上也算一号的,无论是设计团队还是制造工艺,都算强大
只不过比intel和ibm还是差些,ibm的成本干不过intel,因此intel确实是老大
至于amd,和intel是共生关系,amd倒了,intel就是垄断,intel就必须拆分,所以intel不会让amd倒,也不会让它活的太好,放心吧:)

作者: FENG950 时间: 2006-8-28 20:52
好大胆的挑衅啊！不过我就是喜欢Intel技术为先的理念。你说它的最终目的是为了赚取最大利润也好，总之它就是肯在技术方面有着别人比不上的投入和付出。别说它有钱（很多企业有钱也不肯投入呢），它的钱一开始就有了么？为什么同是上世纪60年代最后两年成立的企业，有的就能做大有的就不能？喜欢Intel的大胆创新和冒险，对技术走向敏锐的洞察力。正是这样才有了今天的Intel。霍夫灵光一现有了世界上第一枚微处理器，基尔达尔开创了微程序的设计思想，不仅和IBM的舒加特开发了CP/M，还在微机上确立了软件控制硬件的基本思想。格鲁夫的力排众议让Intel毅然放弃了看起来很美的存储器产业全力投入微处理器行业，没有这个冒险或许Intel早挂掉了。为什么总是Intel制定着这样那样的标准？因为这个企业就是信奉提前行动才有希望争取未来，它们不屑于尾灯战略，不会跟着别人后面舒舒服服的赶路。这也是为什么Intel为冒险付出了许多惨重代价，但是却从来没有停下创新步伐的原因。

作者: hopetoknow2 时间: 2006-8-28 21:09

原帖由 h2o3king 于 2006-8-28 20:31 发表
呵呵,有趣,顶了
实际上德州仪器在u上也算一号的,无论是设计团队还是制造工艺,都算强大

TI也是数的上号的半导体大厂，但是CPU好像还没有。谈处理器，倒是DSP界的老大。

纯看性能：
目前TI拥有最强大的定点通用VLIW DSP--C64+系列，不过好像freescale的新Starcore 1G性能也很牛。
至于TI的浮点DSP，被ADI的Tigersharc 201s打的没面子。

Intel和ADI前两年联合研制的Blackfin系列，纯看性能倒是能狠狠冲击TI的16位DSP C54和C55系列。Blackfin DSP是ADI目前卖的最好DSP。

作者: justinguo 时间: 2006-8-28 21:57

原帖由 hopetoknow2 于 2006-8-28 21:09 发表

TI也是数的上号的半导体大厂，但是CPU好像还没有。谈处理器，倒是DSP界的老大。

纯看性能：
目前TI拥有最强大的定点通用VLIW DSP--C64+系列，不过好像freescale的新Starcore 1G性能也很牛。
至于TI的浮点 ...

TI主要特长之一在模拟器件，多年来稳居前茅。

作者: lw0479 时间: 2006-8-28 21:59
现在谁都会超个频,去BIOS里调调就算是超频了..............

作者: justinguo 时间: 2006-8-28 22:01
05年10大半导体厂商排名。

作者: fengpc 时间: 2006-8-28 22:18
上面的表格，说明Intel的东西是最赚钱的~~
Intel卖一个PC用的CPU都是数十美元以上的
现在闪存价格那么低，三星赚的也不多，DSP之类的也没有Intel CPU赚钱
TI的芯片价格最低的就几个美分

作者: hopetoknow2 时间: 2006-8-28 22:19

原帖由 byby 于 2006-8-28 21:42 发表

我说的就是玩技术，你玩到什么程度了，CPU哪项技术你玩明白了？你不就是买几个U买乱超一顿，就成玩技术？你会设计CPU哪个部分？
龙芯/AMD/INTEL为什么没请你工程师去？
我看叫玩PC、玩超频才是正确的说法。有 ...

玩处理器方面的技术，要能形成基本正确理解，也需要一些基础的，例如外语阅读、数字电路、数学、汇编程序等等。尽管这要求并不高，但是你byby很可能就是不懂。
要求稍微高一点点，你见过4路的乱序处理器的指令在流水线上一级一级的"流动"情况吗？恐怕你并没有。

别人谈玩技术，就要求别人造处理器，这属于纯大白的人。
James,smith属于超级大大级别吧？但他也没有制造出一款处理器来。他手下专攻体系架构的博士们，基本也没有谁制造出一款处理器来。

谈玩超频，只有那些超频能超到高于一般水平的人，算是了不起和有技能，而一般而言初中文化不到，没有以上任何基础，有人简单指导一下，就可以较短几天内，快速装机、超频，如今这个年头，因为超了点频而自信满满的Diyer，真得不多。

作者: liuenchu 时间: 2006-8-28 23:38
Hennessy, John

admire阿，Stanford的校长

http://hennessy-cube.stanford.edu/JohnHennessy.html

作者: GZboy 时间: 2006-8-29 10:34
提示: 作者被禁止或删除内容自动屏蔽

作者: 白菜罗卜斯基 时间: 2006-8-29 10:38
提示: 作者被禁止或删除内容自动屏蔽

作者: rickjovi 时间: 2006-8-29 10:38
提示: 作者被禁止或删除内容自动屏蔽

作者: dennis 时间: 2006-8-29 10:50

原帖由 rickjovi 于 2006-8-29 10:38 发表

恩，至少 64位技术在桌面应用早了不少时间吧。

非不能，不为也。X64这样的扩展，充其量也只不过是X86的续命丹。事实上，X86这样落后的ISA已经严重制约了PC性能的提升。况且，你去看看AMD的历史就会发现，AMD成功的CPU系列一般都是买来的。从Nextgen开始。:lol:

最佳Pro-A很有趣，可惜现在的IA大战远不及3年前那场激烈啊w00t)

[ 本帖最后由 dennis 于 2006-8-29 10:52 编辑 ]

作者: hopetoknow2 时间: 2006-8-29 10:55

原帖由 rickjovi 于 2006-8-29 10:38 发表

恩，至少 64位技术在桌面应用早了不少时间吧。

这么过时的技术，现在还在说？

AMD的K7核心性能都不过Intel完蛋了，K7 32位再改改，拼凑出一个假64位处理器。

64位？ Intel的IA64 真64位服务器早就有了。

2003年AMD才迟迟推出服务器上的假64位U opteron。而且最有用的那一大半(XMM扩展)还是来自Intel的寄存器扩展专利，而弄不好带来U性能倒退作用的那一半，倒是AMD提出的“先进”技术。

等到普通的桌面U，是2004年A64才上市。Intel也就相差几个月，就出P4 64位了。现在连CD都有64位， 64位是什么先进技术？

要说64位x86，那是Conroe才是真算64位处理器，到现在AMD一直都还只有假的，还落后着

[ 本帖最后由 hopetoknow2 于 2006-8-29 10:56 编辑 ]

作者: rfder 时间: 2006-8-29 11:07
对于CPU体系结构而言，技术创新是重要的，但是通常决定胜负的是细节，也就是是产品tune的好不好。

上面那些人里面还是感觉还是Tomasulo最牛，现在的高性能CPU体系结构基本都源于Tomasulo结构。而Tomasulo结构还是Tomasulo在60年代的IBM 360/91型上设出的。P6微架构基本就是Tomasulo结构。值得注意的是：由于IBM 360/91速度较慢，项目本身是失败的，这也说明对产品很重要的一点是tune得好不好。

AMD历史上长期是二流货色，但是DEC公司的垮台给AMD带来了大礼。一些设计DEC Alpha的设计师进入了AMD，设计出了K7，然后是K8。

K7,k8也是Tomasulo结构。Conroe也是。对CPU，特别是大宗商品，采用创新技术是基本不可能的，没人敢去冒险。如果一个人感觉某产品是新技术，绝大多数情况只能说明他（她）不了解体系结构领域。

至于EPIC，就当一个笑话吧：）

作者: potomac 时间: 2006-8-29 12:02
提示: 作者被禁止或删除内容自动屏蔽

作者: potomac 时间: 2006-8-29 12:07
提示: 作者被禁止或删除内容自动屏蔽

作者: acqwer 时间: 2006-8-29 12:23

原帖由 potomac 于 2006-8-29 12:07 发表
另外，坚决反对hopetoknow2关于AMD一无是处的说法。:sweatingbullets:

HTT的设计还是非常不错的。

如果intel的CSI能早几年拿出来。P4也不会就这样挂了。:crying:

HTT又不是AMD设计的。

作者: hopetoknow2 时间: 2006-8-29 13:11

原帖由 potomac 于 2006-8-29 12:07 发表
另外，坚决反对hopetoknow2关于AMD一无是处的说法。:sweatingbullets:

HTT的设计还是非常不错的。

如果intel的CSI能早几年拿出来。P4也不会就这样挂了。:crying:

本来客观的说，AMD能做到二流技术，也就不错了(中国目前不是连三流，都做不到吗？)， AMD毕竟和Intel、IBM不是一个档次上的公司。只是相对而言， AMD的技术水准，和其常常大言不惭的自称技术领先，实在是差距太大。现在，也就是剩下A pro和一些小白爱听和盲目相信这类商业宣传。到了真正的体系结构专业超级大大们，评出来的结果， AMD在哪里呢?

作者: QCQ2003 时间: 2006-8-29 13:22
IBM，INTEL，MOTO，TI，国家半导体等等当年都是规范厂商，那么多年下来也只剩下IBM和INTEL（INTEL当年继承了仙童的嫡系血液）活得滋润些

AMD和他们比确实只是“小”公司，只是近两年才火了一把

[ 本帖最后由 QCQ2003 于 2006-8-29 18:53 编辑 ]

作者: rfder 时间: 2006-8-29 13:53

原帖由 hopetoknow2 于 2006-8-29 13:11 发表

本来客观的说，AMD能做到二流技术，也就不错了(中国目前不是连三流，都做不到吗？)， AMD毕竟和Intel、IBM不是一个档次上的公司。只是相对而言， AMD的技术水准，和其常常大言不惭的自称技术领先，实在是差距 ...

AMD的物理、化学水平和Intel确实差太多，至于体系结构吗，别忘了当年DEC Alpha才是世界第一。Intel现在的Core 2 也是海法做的，不是Hillsboro或Santa Clara。当然Hillsboro的P6打下了很好的底子。Santa Clara team，好像是个真正的二流队。

作者: hopetoknow2 时间: 2006-8-29 14:14

原帖由 rfder 于 2006-8-29 13:53 发表

AMD的物理、化学水平和Intel确实差太多，至于体系结构吗，别忘了当年DEC Alpha才是世界第一。Intel现在的Core 2 也是海法做的，不是Hillsboro或Santa Clara。当然Hillsboro的P6打下了很好的底子。Santa Clara ...

这个Eckert-Mauchly Award奖就是专门体系结构的奖

N年前，Alpha算是比较优秀的RISC之一。

别和我说什么Alpha天下第一。你对Alpha EV6的微体系架构到底了解多少？我敢说，全PCI，没有第二个人能比我，更清楚Alpha EV6核心的微体系架构。

作者: Edison 时间: 2006-8-29 17:46
所有和主题无关的贴都会被删除，请各位发言注意。

作者: hopetoknow2 时间: 2006-8-29 17:52

原帖由 Edison 于 2006-8-29 17:46 发表
所有和主题无关的贴都会被删除，请各位发言注意。

再来一个和主题无直接关系的(这次不算)，不负责任
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
若合理对照以前的标准
2006年一种处理器的普通ALU指令(SUB EAX,EBX)的“基本”流水线可分为如下14级STAGE：
[attach]598271[/attach]
1 STAGE:Fetch1 取指1
2 STAGE:Fetch2/Fetch buffer 取指2
3 STAGE:Predecode1 预译码1
4 STAGE:Predecode2/Rot 预译码2
5 STAGE:Predecode queue 预译码队列
6 STAGE:Dec1 译码1
7 STAGE:Dec2 译码2
8 STAGE:Dec3/uop buffer 译码3
9 STAGE:Rat/Alloc 寄存器换名／资源分配
10 STAGE:Alloc/Rob1 再定序缓冲区1
11 STAGE:Rob2 再定序缓冲区2
12 STAGE:Sch 调度
13 STAGE:Disp 派指
14 STAGE:Exec 执行
（解释：“基本”流水线指不包括BTB和RETIRE等部分。这里一级STAGE的任务可能需要多个时钟周期完成，也或者多级STAGE是在一个时钟周期内完成）
各级说明：
第一、二级Fetch1和Fetch2为取指阶段从指令缓存中取出指令，并存入指令缓冲(Fetch Buffer)－－
指令缓存中的X86指令块经取指阶段(Fetch1、2)进入取指缓冲区Fetch buffer

第三、四、五级Predecode1、Predecode2和Predecode queue为预译码阶段，获取指令长度等信息，并把指令块旋转(Rot)对齐放入预译码队列－－
X86指令块从取指缓冲区中读出，经过预译码器(Predecode1)得到指令长度、指令类别等信息，X86指令块旋转对齐(Predecode2/Rot)后放入预译码队列(Predecode queue)

第六、七、八级Dec1、2、3为译码阶段，把X86指令翻译转换为微指令uop后，存入微指令缓冲区(uop buffer)－－
X86指令再经过译码阶段(Dec1、2)产生微指令uop，存入微指令缓冲区(uop buffer)。4个译码器都可以做宏指令融合，可实现对分支指令融合。宏指令融合和微指令融合的概念区别是：宏指令融合是把多条X86指令融合为一条微指令，而微指令融合是把同一条X86指令中含有的多个微指令融合为一条微指令。
而各译码器也都可以进行微指令融合,原来一条X86指令可能含有2个微指令，现在是把一条X86指令直接翻译为一个融合微指令(fusion uop)。Store指令、读修改类指令等可生成融合微指令:例如sub eax,[ebx+esi]指令原来译码器是产生Load tmp,[ebx+esi]; Sub eax,tmp两条微指令,现在译码器直接把sub eax,[ebx+esi]翻译成一条融合微指令Load&Sub eax,[ebx+esi],一条融合微指令可以有3个源寄存器操作数，而以前的一条微指令只能有两个源寄存器操作数。

第九级Rat为寄存器换名阶段，把微操作uop中的寄存器做重命名操作，把逻辑寄存器映射为实际的物理寄存器。资源分配阶段(Alloc)给微操作uop分配再定序缓冲区(ROB)和保留站(RS)以及发射端口等－－
微指令中的逻辑寄存器操作数通过Rat单元，映射为实际的物理寄存器，而资源分配单元(Alloc)给微指令分配再定序缓冲区(ROB)和保留站(RS)以及发射端口等

第10、11级为再定序缓冲区阶段(Rob1、Rob2)，从ROB中的物理寄存器读计算数据，写到保留站(RS)的寄存器中－－
微指令被放入再定序缓冲区ROB，从ROB内的物理寄存器读取计算数据，写到保留站(RS)里。这里的再定序缓冲区ROB实际是一种先入先出(FIFO)的顺序存储单元，而物理寄存器也在ROB里

第12级Sch为调度阶段，调度器/保留站(RS)单元对微操作进行乱序执行调度。第13级Disp为派发阶段，从发射端口派发微操作指令和保留站(RS)中的寄存器数据到计算单元(例如加法器、移位器等)。第14级Exec为执行阶段，在计算单元中执行微操作－－
微指令在保留站(RS)中得到乱序调度(Sch)，当所有操作数和其它相关资源就绪后，可被派发(Disp)到计算单元中执行(Exec)

流程：
从指令缓存中取出指令(Fetch1/Fetch2)，对指令进行预译码(Predecode1,2)和译码(Dec1,2,3)转化为处理器可执行的微操作指令uop并存入微操作队列；然后利用寄存器换名单元对微操作uop中的寄存器做重命名操作，把微指令中的逻辑寄存器映射为实际的物理寄存器(Rat基本作用是破解uop微指令之间的寄存器伪相关，便于后续的乱序执行提高指令级并行性能), 处理器还将为微指令分配(Alloc)执行资源(这里主要是指：明确微指令该放到ROB中什么位置和RS中什么位置以及哪个派发端口等)。微指令经过寄存器换名和资源分配后，放入再定序缓冲区(ROB)。微指令从再定序缓冲区(ROB)的物理寄存器中读出运算数据，然后写入到调度器(即保留站RS)里；微指令在调度器内进行乱序调度(Sch)，不必按原代码顺序执行，只要调度器检测发现各操作数、端口和计算单元就绪，即可派发(Disp)微指令到相应的计算单元执行(Exec)。
取指,预译码,译码,寄存器换名,资源分配到进入再定序缓冲区ROB－－为按序执行阶段；调度和执行阶段－－为乱序执行阶段。

普通LOAD指令的“基本”流水线可分为如下16级STAGE：
1 STAGE:Fetch1
2 STAGE:Fetch2/Fetch buffer
3 STAGE:Predecode1
4 STAGE:Predecode2/Rot
5 STAGE:Predecode queue
6 STAGE:Dec1
7 STAGE:Dec2
8 STAGE:Dec3/uop buffer
9 STAGE:Rat/Alloc
10 STAGE:Alloc/Rob1
11 STAGE:Rob2
12 STAGE:Sch
13 STAGE:Disp
14 STAGE:AGU Load地址计算
15 STAGE:DCU1 缓存单元流水线1
16 STAGE:DCU2 缓存单元流水线2
第14级为地址计算而不是ALU计算，并多了第15、16级两级L1数据缓存单元流水线。L1D的延迟：Load to use延迟为3。
2003年一种处理器的“基本”流水线可分为如下12级STAGE：
1 STAGE:Fetch1
2 STAGE:Fetch2/Fetch buffer
3 STAGE:Predecode1
4 STAGE:Predecode2/Rot
5 STAGE:Predecode queue
6 STAGE:Dec1
7 STAGE:Dec2/uop buffer
8 STAGE:Rat/Alloc
9 STAGE:Rob
10 STAGE:Sch
11 STAGE:Disp
12 STAGE:Exec

1999年一种处理器的“基本”流水线可分为如下10级STAGE：
1 STAGE:Fetch1
2 STAGE:Fetch2
3 STAGE:Decode1
4 STAGE:Decode2
5 STAGE:Decode3
6 STAGE:Rat/Alloc
7 STAGE:Rob
8 STAGE:Sch
9 STAGE:Disp
10 STAGE:Exec

作者: RacingPHT 时间: 2006-8-29 18:02
提示: 作者被禁止或删除内容自动屏蔽

作者: hopetoknow2 时间: 2006-8-29 18:08

原帖由 RacingPHT 于 2006-8-29 18:02 发表
请比较一下各处理器体系对内存一致性的支持和内存屏障的处理吧。

要谈问题，就先谈核心，不要先谈memory方面，原因特简单。

请你比较一下各处理器体系的CPU核心的流水线对指令的处理吧？我看目前全PCI，连vv都不见得比我清楚。

[ 本帖最后由 hopetoknow2 于 2006-8-29 18:14 编辑 ]

作者: Edison 时间: 2006-8-29 18:27
如果能再补充个2001年和2004年的，这个流水线工位贴就更齐全了，虽然04年的不少stage大都是driver。

作者: RacingPHT 时间: 2006-8-29 18:40
提示: 作者被禁止或删除内容自动屏蔽

作者: xiaxiaf 时间: 2006-8-29 19:21
提示: 作者被禁止或删除内容自动屏蔽

作者: hopetoknow2 时间: 2006-8-29 19:36

原帖由 RacingPHT 于 2006-8-29 18:40 发表

如果不是各memory操作的相依性, 现在何止4路乱序并行.

对于单核而言， Load/sotre操作的相关性，根本和memory coherent、memory wall不是指同一个东西。那Load/sotre操作的相关性这些内容，主要是MOB和L/S单元之类。

如果你是要谈处理器核心里的MOB和L/S单元，那很好。我看PCI真还没有几个比我更清楚的。

作者: hopetoknow2 时间: 2006-8-29 19:37

原帖由 Edison 于 2006-8-29 18:27 发表
如果能再补充个2001年和2004年的，这个流水线工位贴就更齐全了，虽然04年的不少stage大都是driver。

那还做不到，这要看Intel了。也许Intel永远不会说。

作者: RacingPHT 时间: 2006-8-29 19:52
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2006-8-29 20:13
Conroe的store throughtput是1 cycle，P4是4个cycle。

作者: hopetoknow2 时间: 2006-8-29 20:19

原帖由 RacingPHT 于 2006-8-29 19:52 发表

如果你鄙视memory的内容, 那我觉得你可能对处理器的流水线熟读于心, 但是没有看到制约性能的本质问题.
memory只是一个泛指, 就单核来说, 最大的挑战问题就是去除指令序列各项操作的相关性(主要来自于寄存器的 ...

我认为你有概念性错误.
我极为失望，因为你不清楚性能是如何来的。

首先memory coherent的概念，你不清楚。对多处理器／核心而言，memory coherent的主要内容为多个核心在共享存储区上的数据一致性。
现在I/A都是SMP，单核能大胜，双核也就胜。你去看看Cinbench测试中，不同处理器的双核的加速比你就有数了。你根本就提的都不是首要关键问题。

对于单核单处理器系统而言，不太特指memory coherent的概念，要么就是说缓存系统。

至于谈Load/store相关性，那是围绕MOB、LS为核心进行讨论的。

放着核心，你不谈。谈memory wall更是虚的很，不就是要先从AMD谈起吗？不这么谈你当然要失望了，呵呵。

作者: hopetoknow2 时间: 2006-8-29 20:20

原帖由 Edison 于 2006-8-29 20:13 发表
Conroe的store throughtput是1 cycle，P4是4个cycle。

P4C好像是1.7个cycle.

作者: RacingPHT 时间: 2006-8-29 20:53
提示: 作者被禁止或删除内容自动屏蔽

作者: hopetoknow2 时间: 2006-8-29 21:06

原帖由 RacingPHT 于 2006-8-29 19:52 发表

如果你鄙视memory的内容, 那我觉得你可能对处理器的流水线熟读于心, 但是没有看到制约性能的本质问题.
memory只是一个泛指, 就单核来说, 最大的挑战问题就是去除指令序列各项操作的相关性(主要来自于寄存器的 ...

我认为你不了解现在本质性能是在于单核心时的性能。单核足够强，才是双核胜出的根本原因。

你要是想讨论处理器微体系架构的问题，也应该向外是以L2缓存为界限。外围RAM是最后谈的。一般是集成MC或预取处理。
更应该优先讨论核心(带L1)，也许你不知道，核心也是包括memory操作内容，尤其是Load和Store的相关性，是核心内的重要内容。

作者: hopetoknow2 时间: 2006-8-29 21:38

原帖由 RacingPHT 于 2006-8-29 20:53 发表

你说话比较武断, 我不知道你是否熟悉P3之后新增加的Fence类指令, 已经CMPXCHG8b这样的东西的用法. 我不想扯到Fans的讨论中去.

看来，以后交流，一定要加英语。
mfencelfencesfence这是你内存屏障

我是说内存屏障memory wall

作者: RacingPHT 时间: 2006-8-29 21:52
提示: 作者被禁止或删除内容自动屏蔽

作者: hopetoknow2 时间: 2006-8-29 22:08

原帖由 RacingPHT 于 2006-8-29 21:52 发表

动作很快嘛.
mfencelfencesfence是一个指令, 作用和内存屏障完全是两回事. 这个指令大致是在乱序指令流中强制flush一下而已.

内存屏障在我的辞典中是memory barrier.

话说回来, 如果你写一篇详细的体 ...

测试已经不少了，几种双核的加速比，并没有质的区别。 cinebench是有效支持双核的测试， PD和X2以及yonah还有core2，双核加速比都在1.8x左右。

你似乎真的，走偏了路。看些和性能之间的关系，属于末位的东西。

我就怕你说不来，哪个应用可以显示出，明显的双核加速比区别来。

[ 本帖最后由 hopetoknow2 于 2006-8-29 22:26 编辑 ]

作者: RacingPHT 时间: 2006-8-29 22:24
提示: 作者被禁止或删除内容自动屏蔽

作者: hopetoknow2 时间: 2006-8-29 22:34

原帖由 RacingPHT 于 2006-8-29 22:24 发表
x86不同实现没有太大区别也不奇怪。

前面原来提及Alpha, PPC这样的系统, 我还是希望讨论有所收获。很多问题我要了解还很困难。
实话说, 只是试探一下.

说到头, 为今后十年着想, 如果需要高性能软件, 已经不 ...

你根本就没和当前微体系架构中的关键性能部分，搭上钩。

现在SMP双核本质性能问题是什么？并不是多处理器之间的正确同步，而是各个核是否足够强。

作者: RacingPHT 时间: 2006-8-29 22:46
提示: 作者被禁止或删除内容自动屏蔽

作者: hopetoknow2 时间: 2006-8-29 23:00

原帖由 RacingPHT 于 2006-8-29 22:46 发表

你说得没有错. 也没有指出我的错误.
我认为单个处理核心的主要问题是受制于内存(包括reg)的相依性而不能象GPU那样轻松伸缩运算单元
多个处理核心的问题则主要在于软件的任务分解. 至于我关心mb, 只是因为 ...

呵呵，是吗？
你也许不知道， 3DMark中的，软件模式测试，就是CPU做了GPU的活，结果是P4直杀的A64，无处藏身。

作者: RacingPHT 时间: 2006-8-29 23:12
提示: 作者被禁止或删除内容自动屏蔽

作者: hopetoknow2 时间: 2006-8-29 23:21

原帖由 RacingPHT 于 2006-8-29 23:12 发表

P4的运算资源本来就比A64多, 如果A64在这种测试中赢了, 我就奇怪了。我自己就写过P4比同频K8还快的程序.

问题是P4和GPU比怎样呢? 在这种测试中赢了, 我不觉得有什么意义. 因为有些事情本来就是应该由CPU做 ...

呵呵，你现在谈的Load/Store相关性，和前面说的多处理器正确同步，就不是同一回事啦。
这in fly的Load/Store指令相关性的处理，是属于核心区了。

A64，P3，Core2，Alpha21264还有POWER5他们是怎么处理的？

作者: hopetoknow2 时间: 2006-8-29 23:24
A64和P3 都是必须等到所有老操作的地址都计算出来ready了,做地址比较后，然后确定是否存在相关性。如果有老操作的地址还没有出来，那只能干等了。

core2要激进了，不干等，只要预测为无相关性直接就先执行了。 (因为有预测器预测着呢)

POWER5不搞预测的，就是和那些已经地址ready的老操作，做地址对比，如果有的老操作的地址还没有出来，那不管，就当不相关了。若没有发现相关，就先执行再说了。

Alpha有简单的预测机制，成为Store waiting Table。一开始一律都当成不相关了，先执行再说了。如果实际是相关的，那么Store waiting Table会记录，下次再执行这条指令时，都当成有相关性。这个"黑"记录要16K个cycle后才解除。

[ 本帖最后由 hopetoknow2 于 2006-8-29 23:46 编辑 ]

作者: somarizhou 时间: 2006-8-30 00:31
太高深了，基本，不，应该是完全看不懂

作者: rfder 时间: 2006-8-30 11:07
讨论下为什么Celeron的性能比Pentium 4 差那么多吧。

作者: hopetoknow2 时间: 2006-8-30 11:09

原帖由 rfder 于 2006-8-30 11:07 发表
讨论下为什么Celeron的性能比Pentium 4 差那么多吧。

讨论下为什么A64的性能比Core2差那么多吧

作者: hopetoknow2 时间: 2006-8-30 11:37
让我来先让你兴奋兴奋， Core2的整数是最厉害的

但是Core2只有3个ALU，2个AGU(一个AGU只能计算Load的地址、另一个只能计算Store的地址)

而A64有3个ALU，3个AGU(每个AGU均可计算Load或Store地址)。

为啥A64被打的大吐血。

SPECint2000 K8 2.6G 最高为1854，
E6700却高达2842，领先53%多

作者: RacingPHT 时间: 2006-8-30 11:46
提示: 作者被禁止或删除内容自动屏蔽

作者: hopetoknow2 时间: 2006-8-30 12:00

原帖由 RacingPHT 于 2006-8-30 11:46 发表

你研究过int2000的代码么

CPU2006来了, AMD更跟不上时代了

CPU2006的base基准测试不准FDO优化了，因而base基准的参考性大为增强

浮点测试SPECfp_base2006

3.73 GHz, 32位下，PentiumEE 965成绩高达12.7
http://www.spec.org/cpu2006/resu ... 20060513-00041.html
而3G的K8才12.7，还是64位下的成绩 (Pathscale2.4)，太差了
http://www.spec.org/cpu2006/resu ... 20060513-00023.html

仅需24%的主频优势，就拿下K8了

按这个势头，长远看，PD9xx比X2要有前途。

作者: hopetoknow2 时间: 2006-8-30 12:09

原帖由 RacingPHT 于 2006-8-30 11:46 发表

你研究过int2000的代码么

Specint2000是给多种通用CPU使用的，是不准通过修改源代码来优化的。
而不是专门给Intel的处理器使用优化的。

几乎所有历史上的高性能通用CPU，都要去测试。

给你身边举例，gcc的代码：Specint中还有编译器gcc的源码， 2.6G的K8在gcc项才1933，而E6600确高达3096，领先60%之多。

作者: xreal 时间: 2006-8-30 12:09
:whistling:
intel本来就比amd有实力，amd赚小钱， intel赚大钱。这个情况很难改观。

作者: rfder 时间: 2006-8-31 10:35

原帖由 hopetoknow2 于 2006-8-30 11:09 发表

讨论下为什么A64的性能比Core2差那么多吧

好啊，详细谈谈吧。找个小板凳坐下。

作者: zyz184 时间: 2006-9-12 15:32
提示: 作者被禁止或删除内容自动屏蔽

作者: complexmind 时间: 2006-10-7 20:42
听HOPE大虾发言获益匪浅啊:p :p :p
小弟顶啦。不知道pOWER 5和Cell跑成什么烂样w00t) w00t) ？？
小弟认为现在计算资源不是问题，构造大量计算单元没难度，但提高计算效率就难了，谁做的好，谁的性能就强，原来是k8现在终于到INTEL了:wub: :wub:

[ 本帖最后由 complexmind 于 2006-10-7 20:47 编辑 ]

作者: 罗菜鸟 时间: 2006-10-24 22:13
新技术不如完善的系统工程

作者: naze 时间: 2008-11-25 21:10
顶起希望amd爱好者进来与高手一起讨论
而不是整天说垄断

作者: sanbinc.gworc 时间: 2008-11-26 09:55
这么精彩的帖子怎么没有继续了？{victory:]

作者: 装龙作雅 时间: 2008-11-26 13:45
提示: 作者被禁止或删除内容自动屏蔽

作者: daniel_k 时间: 2008-12-1 08:42
靠，又是挖·坟派对:angry:

作者: ccc999 时间: 2008-12-1 10:40

原帖由 hopetoknow2 于 2006-8-28 21:09 发表

TI也是数的上号的半导体大厂，但是CPU好像还没有。谈处理器，倒是DSP界的老大。

纯看性能：
目前TI拥有最强大的定点通用VLIW DSP--C64+系列，不过好像freescale的新Starcore 1G性能也很牛。
至于TI的浮点DS ...

我用过Ti 486DX4-100。

作者: LuciferAA 时间: 2008-12-20 19:42
完全看不懂{cry:]

作者: dreamz3 时间: 2008-12-21 22:19

原帖由 hopetoknow2 于 2006-8-29 22:08 发表

测试已经不少了，几种双核的加速比，并没有质的区别。 cinebench是有效支持双核的测试， PD和X2以及yonah还有core2，双核加速比都在1.8x左右。

你似乎真的，走偏了路。看些和性能之间的关系，属于末位的东西 ...

cinebench是属于渲染型测试，这种应用对memory带宽没有非常强的需求，基本上是个流处理过程而已。换到别的很多测试可能会体现不同的结果。

作者: PMPMP 时间: 2008-12-27 14:46
挖坟万岁！！:loveliness: :loveliness:

作者: jg8215 时间: 2008-12-27 21:45
提示: 作者被禁止或删除内容自动屏蔽

欢迎光临 POPPUR爱换 (https://we.poppur.com/)