鲜为人知的资料 Fusion上K10核心的变化

superrugal · 发表于 2010-4-15 23:08

Llano APU (tweaked K10h+GPU):
32nm HKMG SOI process.
11 metal layers ,dual strain liners, eSiGe ,low K dielectric.
35 million transistors and 9.69mm^2 (core without L2).
110 million transistors and 17.7mm^2 (core with L2 and power gating ring).

Llano APU（由K10h+GPU组成）：
32nm HKMG SOI工艺。
11层金属互联层，双应变衬底，嵌入式硅锗，low K电介质。
3500万晶体管，9.69mm^2的面积（不含L2的核心）。
1.1亿晶体管，17.7mm^2的面积（包含L2和power gating ring的核心）。

Performance improvements:
1.Instruction window is enlarged to 84 entries.
2.Instruction scheduler enlarged to 30 entries for Integer.
3.Instruction set is cleaned up (added AVX support?).
4.L1 cache cell 8T design for low voltage and good scaling.
5.L2 cache up to 1MB, 16-way associativity.
6.Improved hardware integer divide.
7.Reduced latency for FP instructions.
8.Better prefetcher.
9.Faster cache lines transition between states.
10.Increased memory fill speed.
11.TLB improved for better residency.

性能改进：
1、指令窗口扩大到84项。
2、整数的指令调度扩大到30项。
3、清理指令集（增加AVX支持？）
4、为了低电压和可扩展性，L1缓存单元采用8T设计。
5、L2缓存1MB，16路关联。
6、改进硬件正数除法。
7、减少浮点指令延时。
8、更好的预取。
9、更快的缓存行之间转换。
10、增加内存填充速度。
11、改进TLB排列。

Power improvements:
1.Core Power Gating.
-added power gating ring bulid on NFET transistors
-ability to completely disconnect any one of the cores
-multiple power planes
2.Digital APM Module.
-digital monitoring amperage and temperature
-turbo functionality
3.Clock grid
-depopulated and power aware clock grid design
-80% reduction in clock grid metal capacitance
-50% reduciion in the number of power buffers
-2x reduction in clock switching power

功耗改进：
1、核心功率门控。
-增加基于NFET晶体管的power gating ring。
-能够完全断开任何一个核心
-多个电源层
2、数字APM模块。
-数字监控电流和温度
-turbo功能
3、时钟网格。
-减少并增强确定时钟网格的设计
-减少时钟网格上80%的金属电容
-减少50%的电源缓冲
-减少时钟开关上2倍的电源

itany · 发表于 2010-4-16 00:10

本帖最后由 itany 于 2010-4-16 00:12 编辑

这个之前就看过了，没什么新意么
这些改进加起来能不能掩盖砍掉K10 L3的损失，我看还是比较悬的
如果这几个改进就能掩盖没L3的损失，AMD给K10增加L3那简直是吃错药了

另外之前的说法是不支持AVX的，即使是支持也是降级用128位单元处理的，效率比较低

CC9K · 发表于 2010-4-16 00:45

这个之前就看过了，没什么新意么
这些改进加起来能不能掩盖砍掉K10 L3的损失，我看还是比较悬的
如果这几 ...
itany 发表于 2010-4-16 00:10

K10的L3提高的性能本来就不多，AMD自己都说6M L3主要对服务器性能有一定提高

至于增加L3是不是吃错药了，因为根据拆分协议GF工厂的这部分产能在2011年之前AMD必须包掉的，不管用不用掉这些晶圆都要支付给GF

superrugal · 发表于 2010-4-16 00:53

K10 L3部分充其量只是块延时很低的内存罢了而且K10的uncore一直上不去还要考虑到面积问题所以才砍了L3 内部的改进比L3那块东西可要重要多了在我看来L3对普通用户是没什么特殊意义的
浮点部分从构造上看是多出了一块不明物体初步怀疑是新的指令集也有可能是gpu部分的setup engine被挪到cpu上了这样做的好处是降低gpu和cpu在数据一致性方面的延迟

superrugal · 发表于 2010-4-16 01:00

另外之前的说法是不支持AVX的，即使是支持也是降级用128位单元处理的，效率比较低
itany 发表于 2010-4-16 00:10

avx系指令在我看来似乎跟K10没什么冲突加不加是amd自己的问题了而且旧SSE指令在兼容avx架构后仍然是128bit的只不过avx除了增加专用256bit寄存器和指令外还对之前SSE的解码问题进行修正使得旧的SSE指令效率也得到提高罢了说白了avx是架构不是指令

itany · 发表于 2010-4-16 01:41

K10 L3部分充其量只是块延时很低的内存罢了而且K10的uncore一直上不去还要考虑到面积问题所以才砍了 ...
superrugal 发表于 2010-4-16 00:53

实际上没有你说的那么重要
增加指令窗口是有助于提升IPC，但是我觉得瓶颈不在这上边，实际上效果也不会太明显
AVX支持我觉得不是，一般认为是Setup Engine
L1缓存的变化对性能没影响，Nehalem L2还是8T的呢
除法器用的本来就少，影响不大，Penryn也改进了除法器
L2缓存增加有影响，不过早就知道了，剩下的改进也没什么
TLB对桌面用户影响不大

cyj1984821 · 发表于 2010-4-16 08:10

上面几楼好专业啊，。。。。。。能手工雕刻CPU不？？？

4479237 · 发表于 2010-4-16 09:50

实际上没有你说的那么重要
增加指令窗口是有助于提升IPC，但是我觉得瓶颈不在这上边，实际上效果也不会 ...
itany 发表于 2010-4-16 01:41

是4发射吗？

带SMT吗？

不知核心效率能和45NM CORE架构一样吗

4479237 · 发表于 2010-4-16 09:50

上面几楼好专业啊，。。。。。。能手工雕刻CPU不？？？
cyj1984821 发表于 2010-4-16 08:10

我草头像好恶心

Templar · 发表于 2010-4-16 10:05

提示: 作者被禁止或删除内容自动屏蔽

染上爱情的风 · 发表于 2010-4-16 10:09

专业级的，不懂啦

4479237 · 发表于 2010-4-16 14:57

itany 童鞋，32NM的推土机单位能耗性能可有30%提升呢

帐号		自动登录	找回密码
密码			注册

Templar Templar 当前离线积分 4 IP卡狗仔卡头像被屏蔽	10^# 发表于 2010-4-16 10:05 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
Templar Templar 当前离线积分 4 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

鲜为人知的资料 Fusion上K10核心的变化

浏览过的版块