POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 1449|回复: 11
打印 上一主题 下一主题

鲜为人知的资料 Fusion上K10核心的变化

[复制链接]
跳转到指定楼层
1#
发表于 2010-4-15 23:08 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式


Llano APU (tweaked K10h+GPU):
32nm HKMG SOI process.
11 metal layers ,dual strain liners, eSiGe ,low K dielectric.
35 million transistors and 9.69mm^2 (core without L2).
110 million transistors and 17.7mm^2 (core with L2 and power gating ring).

Llano APU(由K10h+GPU组成):
32nm HKMG SOI工艺。
11层金属互联层,双应变衬底,嵌入式硅锗,low K电介质。
3500万晶体管,9.69mm^2的面积(不含L2的核心)。
1.1亿晶体管,17.7mm^2的面积(包含L2和power gating ring的核心)。

Performance improvements:
1.Instruction window is enlarged to 84 entries.
2.Instruction scheduler enlarged to 30 entries for Integer.
3.Instruction set is cleaned up (added AVX support?).
4.L1 cache cell 8T design for low voltage and good scaling.
5.L2 cache up to 1MB, 16-way associativity.
6.Improved hardware integer divide.
7.Reduced latency for FP instructions.
8.Better prefetcher.
9.Faster cache lines transition between states.
10.Increased memory fill speed.
11.TLB improved for better residency.

性能改进:
1、指令窗口扩大到84项。
2、整数的指令调度扩大到30项。
3、清理指令集(增加AVX支持?)
4、为了低电压和可扩展性,L1缓存单元采用8T设计。
5、L2缓存1MB,16路关联。
6、改进硬件正数除法。
7、减少浮点指令延时。
8、更好的预取。
9、更快的缓存行之间转换。
10、增加内存填充速度。
11、改进TLB排列。

Power improvements:
1.Core Power Gating.
-added power gating ring bulid on NFET transistors
-ability to completely disconnect any one of the cores
-multiple power planes
2.Digital APM Module.
-digital monitoring amperage and temperature
-turbo functionality
3.Clock grid
-depopulated and power aware clock grid design
-80% reduction in clock grid metal capacitance
-50% reduciion in the number of power buffers
-2x reduction in clock switching power

功耗改进:
1、核心功率门控。
-增加基于NFET晶体管的power gating ring。
-能够完全断开任何一个核心
-多个电源层
2、数字APM模块。
-数字监控电流和温度
-turbo功能
3、时钟网格。
-减少并增强确定时钟网格的设计
-减少时钟网格上80%的金属电容
-减少50%的电源缓冲
-减少时钟开关上2倍的电源
2#
发表于 2010-4-16 00:10 | 只看该作者
本帖最后由 itany 于 2010-4-16 00:12 编辑

这个之前就看过了,没什么新意么
这些改进加起来能不能掩盖砍掉K10 L3的损失,我看还是比较悬的
如果这几个改进就能掩盖没L3的损失,AMD给K10增加L3那简直是吃错药了

另外之前的说法是不支持AVX的,即使是支持也是降级用128位单元处理的,效率比较低
回复 支持 反对

使用道具 举报

3#
发表于 2010-4-16 00:45 | 只看该作者
这个之前就看过了,没什么新意么
这些改进加起来能不能掩盖砍掉K10 L3的损失,我看还是比较悬的
如果这几 ...
itany 发表于 2010-4-16 00:10


K10的L3提高的性能本来就不多,AMD自己都说6M L3主要对服务器性能有一定提高

至于增加L3是不是吃错药了,因为根据拆分协议GF工厂的这部分产能在2011年之前AMD必须包掉的,不管用不用掉这些晶圆都要支付给GF
回复 支持 反对

使用道具 举报

4#
 楼主| 发表于 2010-4-16 00:53 | 只看该作者
K10 L3部分充其量只是块延时很低的内存罢了   而且K10的uncore一直上不去  还要考虑到面积问题   所以才砍了L3    内部的改进比L3那块东西可要重要多了   在我看来L3对普通用户是没什么特殊意义的
浮点部分从构造上看是多出了一块不明物体   初步怀疑是新的指令集        也有可能是gpu部分的setup engine被挪到cpu上了  这样做的好处是降低gpu和cpu在数据一致性方面的延迟
回复 支持 反对

使用道具 举报

5#
 楼主| 发表于 2010-4-16 01:00 | 只看该作者
另外之前的说法是不支持AVX的,即使是支持也是降级用128位单元处理的,效率比较低
itany 发表于 2010-4-16 00:10


avx系指令在我看来似乎跟K10没什么冲突   加不加是amd自己的问题了  而且旧SSE指令在兼容avx架构后仍然是128bit的  只不过avx除了增加专用256bit寄存器和指令外  还对之前SSE的解码问题进行修正  使得旧的SSE指令效率也得到提高罢了  说白了avx是架构  不是指令
回复 支持 反对

使用道具 举报

6#
发表于 2010-4-16 01:41 | 只看该作者
K10 L3部分充其量只是块延时很低的内存罢了   而且K10的uncore一直上不去  还要考虑到面积问题   所以才砍了 ...
superrugal 发表于 2010-4-16 00:53


实际上没有你说的那么重要
增加指令窗口是有助于提升IPC,但是我觉得瓶颈不在这上边,实际上效果也不会太明显
AVX支持我觉得不是,一般认为是Setup Engine
L1缓存的变化对性能没影响,Nehalem L2还是8T的呢
除法器用的本来就少,影响不大,Penryn也改进了除法器
L2缓存增加有影响,不过早就知道了,剩下的改进也没什么
TLB对桌面用户影响不大
回复 支持 反对

使用道具 举报

7#
发表于 2010-4-16 08:10 | 只看该作者
上面几楼好专业啊,。。。。。。能手工雕刻CPU不???
回复 支持 反对

使用道具 举报

8#
发表于 2010-4-16 09:50 | 只看该作者
实际上没有你说的那么重要
增加指令窗口是有助于提升IPC,但是我觉得瓶颈不在这上边,实际上效果也不会 ...
itany 发表于 2010-4-16 01:41



    是4发射吗?

带SMT吗?

不知核心效率能和45NM CORE架构一样吗
回复 支持 反对

使用道具 举报

9#
发表于 2010-4-16 09:50 | 只看该作者
上面几楼好专业啊,。。。。。。能手工雕刻CPU不???
cyj1984821 发表于 2010-4-16 08:10



    我 草 头像 好恶心
回复 支持 反对

使用道具 举报

头像被屏蔽
10#
发表于 2010-4-16 10:05 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

11#
发表于 2010-4-16 10:09 | 只看该作者
专业级的,不懂啦
回复 支持 反对

使用道具 举报

12#
发表于 2010-4-16 14:57 | 只看该作者
itany 童鞋,32NM的推土机单位能耗性能可有30%提升呢
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-7-7 02:33

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表