POPPUR爱换

标题: NVIDIA GeForce GTX 680预览 [打印本页]

作者: gtx5    时间: 2012-2-11 17:29
标题: NVIDIA GeForce GTX 680预览
继昨天3DCenter.org后,一向善于深度分析的BSN网站也于今日放出了关于NVIDIA 28nm工艺Kepler架构GK104核心的消息:部分和本站昨日报道的大体相同,不过还有一些细微之处值得玩味。(关于昨日的传闻PCINLIFE管理员cho此次一反常态没有扔出一句"Fake"或者“瞎编”就走,此外多方来源已经间接暗示多数细节为真)
首先关于NVIDIA将核心频率和Shader频率统一这个早有相关报道。Kepler架构中一组SM的CUDA Core数量对比Fermi翻倍,由32升为96个。显存控制器为256bit界面,这些都与昨天3DCenter的消息相同。
接下来让我们来看看GK104的核心示意图:
大眼一看和GF110类似,不过仔细看就能发现SP数量由512暴增至1536。BSN称,起初NVIDIA考虑GK104上市初的名称是GeForce GTX 660,但现在有99%的可能正式上市名称为GeForce GTX 680,剩下1%为GTX 660/670。价格方面也和之前大嘴查理所说的不同:GeForce GTX 680定位于GeForce GTX 560 Ti 2GB/GeForce GTX 560 Ti 448 Core/GeForce GTX 570的替代者,初步定价为349-399美元。性能方面当然要比上代旗舰GeForce GTX 580要高很多,最重要的是GK104不仅能干掉449美元的Radeon HD 7950 3GB,549美元的Radeon HD 7970也不在话下,有消息称3DMark 11 X模式得分可能会在3000左右,一夜爆降千元看来即将出现……(提示:1536/1024或768/512)
接下来是GK104的架构分析,Kepler时代一组SM以96个CUDA Core为基准,1个GPC(Graphics Processing Clusters)含4组SM共384个CUDA Core。GK104含1536个(4GPC),不难推测顶级的GK110可能含6GPC即2304个CUDA Core。显存控制器方面可能仍为低端入门级64bit,中端主流128bit,中高端256bit,顶级384/512bit——应先用在HPC上,或者采用GK110的GeForce GTX 690。而Kepler的移动图形核心其实已经早已流片完成,CES上三星已经展示了搭载最低端(96CUDA Core)的笔记本电脑。(驱动程序对频率/规格识别有误)
和AMD的Tahiti XT对比,GK104在ROP和TMU数量上一样——均为32个128个,但显存控制器指标仍然延续不如AMD的“传统”,2GB 256bit GDDR5显存对上Raeon HD 7970/7950的3GB。不过价格和性能上的优势相信届时也会迫使对手产品降价。
和GF110一样,GK104其实也有两个版本——生产Quadro和Tesla的双精度浮点性能为单精度的一半,而生产GeForce的理论上为四分之一。
目前GK104的核心频率暂定为950MHz,但BSN称消息来源表示在NVIDIA的实验室中起初有两个版本:772MHz用来和相同的GeForce GTX 580比较,925MHz用来和相同的Tahiti XT做比较,实际出货版本核心频率可能会在950-1000MHz之间。当然,类似AMD的蓝色小药丸,NVIDIA目前也在加紧调整BIOS,争取使公版的GK104核心频率届时站上1GHz。如果NVIDIA无法完成这一目标,那么将第一时间开放非公版/AIC超频版
显存方面,目前暂定的频率为1.25GHz等效5GHz,相对GF100/110的提升了25%。这方面AMD在GDDR5显存/控制器上算是标准制订者之一,因此AMD的GPU工程师在提高GDDR5显存方面具有优势也就不稀奇。 由前面所述的频率计算,GK104拥有160GB/s的显存带宽,对比GTX 580的192.4GB/s略有下降,但比起预计替代的产品GTX 560 Ti和GTX 560 Ti GF110核心版本/GTX 570的128.27GB/s和152GB/s均有提升。
所有这些规格带来的单精度浮点运算能力为2.9-3.05TFLOPS,双精度浮点为486-500GFLOPS。Quadro和Tesla版本会拥有解锁的双精度浮点运算能力——也就是1.5-1.6TFLOPS左右,和GTX 580的单精度浮点运算能力相当,显著高于Fermi核心的Quadro和Tesla。
BSN最后称,用户们不会等待太长时间,NVIDIA已经准备开始Kepler的预售/铺货等行动(包括中端的GK107——GeForce GTX 650等),在市场行动上用来反击AMD将于2月15日发布的"Cape Verde"Radeon HD 7700系列和3月6日德国汉诺威CeBIT展会上发布的"Pitcairn"Radeon HD 7800系列。或许下个月市场上就能见到Kepler的实体


作者: SupperSix    时间: 2012-2-11 17:37
唉,本来想说什么,算了还是
作者: 043265    时间: 2012-2-11 18:11
坐等降千元
作者: w7231665    时间: 2012-2-11 18:13
按这个规格- -灭7XXX全家真是没压力了
作者: hmj1982427    时间: 2012-2-11 18:29
要真是这样,把原定的660改名680卖,AMD可怎么活啊,除非还有什么后手
作者: chenhua007very    时间: 2012-2-11 18:38
  铁杆A可以去交易区等收2000出头的7970了
作者: BDFMK2    时间: 2012-2-11 18:49
这文可说灭掉7970不在话下哦
作者: 蕊珠    时间: 2012-2-11 19:19
w7231665 发表于 2012-2-11 18:13
按这个规格- -灭7XXX全家真是没压力了

此1536非fermi时代的sp,GK104 1536sp,950M主频,达到的单精度浮点运算是2.918T的话,只能说明GK104构架的3sp相当于GF110构架的1sp,因为580规格512sp,772M主频就达到了2.372T的单精度浮点运算。
作者: aixiangsui2012    时间: 2012-2-11 19:22
如果规模这么搞,说明内部架构已经大变了
那么 费米和之前几代也全算白费了
作者: f0f0f0    时间: 2012-2-11 19:25
蕊珠 发表于 2012-2-11 19:19
此1536非fermi时代的sp,GK104 1536sp,950M主频,达到的单精度浮点运算是2.918T的话,只能说明GK104构架 ...

http://www.nvidia.cn/docs/IO/43395/DS-Tesla-M-Class-Aug11.pdf
作者: krisman    时间: 2012-2-11 19:28
这么说660也得1000SP左右,再买1499左右,又个高性价比产品出世,有木有?
作者: 66666    时间: 2012-2-11 19:31
蕊珠 发表于 2012-2-11 19:19
此1536非fermi时代的sp,GK104 1536sp,950M主频,达到的单精度浮点运算是2.918T的话,只能说明GK104构架 ...

GTX580哪来的2.3T单精度?
作者: GTX999    时间: 2012-2-11 19:34
66666 发表于 2012-2-11 19:31
GTX580哪来的2.3T单精度?

相当于768sp
作者: 蕊珠    时间: 2012-2-11 19:41
66666 发表于 2012-2-11 19:31
GTX580哪来的2.3T单精度?

NV核心单精度浮点运算的计算公式是流处理器频率*3*流处理器数量,当初GTX280的规格是240sp,流处理器频率1296M,算的单精度浮点运算为0.933T,与标称相符。用这种方法算得580单精度浮点运算是2.372T,和标称不符,标称未必正确,因为按照2.372T来计算580的性能是216.5(280是116.6),与实际相符。这和6970类似,只有按照3.379T而不是2.703T来计算6970的性能才能得到194.1的理论值(5870是162.7)
作者: 蕊珠    时间: 2012-2-11 19:44
66666 发表于 2012-2-11 19:31
GTX580哪来的2.3T单精度?

还有一点,GK104按照2.918T浮点运算,160G显存带宽来计算理论性能值是219(580是216.5)。
作者: cbr250xc    时间: 2012-2-11 19:45
還是這裡氣氛 好一點 可以客觀討論一下 馬勒隔壁就像打翻了個醋澄子一樣 酸溜溜的 一有新卡性能比7970強就好像刺到他媽媽的g點一樣亂叫。還各種黑,好像很願意看到nv拿出個殘廢卡似的這種情況、
作者: 66666    时间: 2012-2-11 19:53
蕊珠 发表于 2012-2-11 19:41
NV核心单精度浮点运算的计算公式是流处理器频率*3*流处理器数量,当初GTX280的规格是240sp,流处理器频率 ...

恩恩,原来NV自己公布的1.5T是胡扯,您自己YY的2.3T才正确是吧?

你所谓的计算公式依据在哪?有CUDA程序可以重现?
作者: 李主任    时间: 2012-2-11 20:05
年纪大了,现在只想用集显玩玩小游戏。
作者: sunstarmoon    时间: 2012-2-11 20:12
本帖最后由 sunstarmoon 于 2012-2-11 20:12 编辑
蕊珠 发表于 2012-2-11 19:41
NV核心单精度浮点运算的计算公式是流处理器频率*3*流处理器数量,当初GTX280的规格是240sp,流处理器频率 ...

因为根据官方数据套进你自己想出来的公式计算出来的结果不符合现实情况,所以错的是NV公布出来的数据不是你的公式,你是这么认为?
作者: 蕊珠    时间: 2012-2-11 20:12
66666 发表于 2012-2-11 19:53
恩恩,原来NV自己公布的1.5T是胡扯,您自己YY的2.3T才正确是吧?

你所谓的计算公式依据在哪?有CUDA程 ...

280的浮点运算就是0.933T了,580才1.5T你觉得靠谱吗?要用脑子想想,不要光相信别人的答案,当然2.9如果也不是GK104的真是浮点运算的话那GK104的性能值将达到268.3
作者: 66666    时间: 2012-2-11 20:15
蕊珠 发表于 2012-2-11 20:12
280的浮点运算就是0.933T了,580才1.5T你觉得靠谱吗?要用脑子想想,不要光相信别人的答案,当然2.9如果也 ...

这个“别人”可是NV自己好吧,我只见过把自家产品技术参数虚报高的

可从没见过故意往低的报的公司
作者: 蕊珠    时间: 2012-2-11 20:16
sunstarmoon 发表于 2012-2-11 20:12
因为根据官方数据套进你自己想出来的公式计算出来的结果不符合现实情况,所以错的是NV公布出来的数据不是 ...

我用这种方法预算性能很准,NV的公布的数据可能有它的道理。
作者: goldman948    时间: 2012-2-11 20:17
蕊珠 发表于 2012-2-11 20:12
280的浮点运算就是0.933T了,580才1.5T你觉得靠谱吗?要用脑子想想,不要光相信别人的答案,当然2.9如果也 ...

自己说错了反怪NV,强人一个
作者: sunstarmoon    时间: 2012-2-11 20:25
本帖最后由 sunstarmoon 于 2012-2-11 20:28 编辑

单精度浮点不是有公式算的么。。是nv能随口乱说的吗。。。

就算是GF114与GF110的公式也略有不同,更不用说跟GT200,GK104了。。。
作者: 蕊珠    时间: 2012-2-11 20:25
66666 发表于 2012-2-11 20:15
这个“别人”可是NV自己好吧,我只见过把自家产品技术参数虚报高的

可从没见过故意往低的报的公司

用来计算显卡性能的浮点运算反正不能用NV的数据,用我这种方法算出来的和实际符合很好。
还有一个例子,5D时代AMD核心的浮点运算公式是流处理器数*核心平率/500000,但到了4D核心计算的6970浮点运算是2.703T,单修正下公式为流处理器数*核心平率/400000(对应于4D构架),浮点运算为3.379T,计算的性能值与实际相符很好。
作者: 蕊珠    时间: 2012-2-11 20:30
sunstarmoon 发表于 2012-2-11 20:25
单精度浮点不是有公式算的么。。是nv能随口乱说的吗。。。

就算是GF114与GF110的公式也略有不同,更不用 ...

NV公布的浮点运算不知是什么含义,但与性能相联系的运算性能确由我这公式给出,证据便是由我公式计算的性能与实际符合很好,我在另一个贴里贴出了实际性能与理论性能的对比图。
作者: 66666    时间: 2012-2-11 20:35
蕊珠 发表于 2012-2-11 20:25
用来计算显卡性能的浮点运算反正不能用NV的数据,用我这种方法算出来的和实际符合很好。
还有一个例子, ...

和什么实际符合的很好?实际哪个应用或者测试软件能得到你所谓2.3T单精度?
作者: 蕊珠    时间: 2012-2-11 20:36
66666 发表于 2012-2-11 20:35
和什么实际符合的很好?实际哪个应用或者测试软件能得到你所谓2.3T单精度?

http://we.pcinlife.com/thread-1831200-1-1.html
作者: Edison    时间: 2012-2-11 20:41
蕊珠 发表于 2012-2-11 19:41
NV核心单精度浮点运算的计算公式是流处理器频率*3*流处理器数量,当初GTX280的规格是240sp,流处理器频率 ...

你对 Tesla 和 Fermi 的架构认识不够清楚。

GT200 可以让所有的 cuda core 再加上 SFU 实现 8 cuda core + 4 SFU 的 dual-issue,而 GF100/110 的 issue port 虽然也是两个,但是只能同时跑 32 CUDA Core 或者 16 CUDA Core + SFU 的 Dual-Issue。

Fermi 的单精度理论性能是 float ops per FMA*cuda core*shader clock = 2 * 512 *(772MHz*2) = 1581056 MFLOPS = 1.58TFLOPS。

这不是什么 NVIDIA 或者某个厂商自诩的算法,而是不同架构下的理论值计算方式。
作者: 蕊珠    时间: 2012-2-11 20:53
本帖最后由 蕊珠 于 2012-2-11 20:54 编辑
Edison 发表于 2012-2-11 20:41
你对 Tesla 和 Fermi 的架构认识不够清楚。

GT200 可以让所有的 cuda core 再加上 SFU 实现 8 cuda co ...


但按照1.5T的浮点运算是算不出与实际相符的理论性能的,只有按照2.372T算才与实际性能相符,我们可以定义这个与关乎游戏性能的浮点运算为理论游戏运算性能,以便于和单精度浮点运算相区别开。
作者: 蕊珠    时间: 2012-2-11 21:00
蕊珠 发表于 2012-2-11 20:53
但按照1.5T的浮点运算是算不出与实际相符的理论性能的,只有按照2.372T算才与实际性能相符,我们可以定 ...

不能反应真实游戏性能的单精度浮点运算你不认为没啥意义么?
作者: Edison    时间: 2012-2-11 21:06
NVIDIA 对 GPUBench 的 RCP 函数计算一直有些特殊的优化,所以不要指望拿 GPUbench 出来的 rcp 测试结果作为所谓的实际性能指标。
[attach]1764387[/attach]

上图是 GTX 580 的 GPUBench 测试结果
作者: 蕊珠    时间: 2012-2-11 21:13
本帖最后由 蕊珠 于 2012-2-11 21:15 编辑
Edison 发表于 2012-2-11 21:06
NVIDIA 对 GPUBench 的 RCP 函数计算一直有些特殊的优化,所以不要指望拿 GPUbench 出来的 rcp 测试结果作为 ...


我计算用的实际性能是从各大评测网站评测报告算得的综合性能,由于各种因素,实际性能不会严格等于理论性能,但总的趋势是不变的,误差也很小(AMD显卡的理论与实际符合得比NV显卡要好些,这也可以解释为NV确实有特殊的优化,所以造成与理论性能的偏移)。
作者: Edison    时间: 2012-2-11 21:19
蕊珠 发表于 2012-2-11 21:13
我计算用的实际性能是从各大评测网站评测报告算得的综合性能,由于各种因素,实际性能不会严格等于理论 ...

你用各个网站的性能报告来综合这个我不关心,关键是你依据这个来说 GPU 理论峰值的计算方式有问题就是错误的。
作者: 蕊珠    时间: 2012-2-11 21:22
Edison 发表于 2012-2-11 21:19
你用各个网站的性能报告来综合这个我不关心,关键是你依据这个来说 GPU 理论峰值的计算方式有问题就是错误 ...

我说了我计算用的理论峰值可能不是NV所谓的单精度浮点运算,而可以定义为理论游戏运算性能。
作者: 蕊珠    时间: 2012-2-11 21:23
Edison 发表于 2012-2-11 21:19
你用各个网站的性能报告来综合这个我不关心,关键是你依据这个来说 GPU 理论峰值的计算方式有问题就是错误 ...

不信就预测下GK104和GK110的性能表现
作者: spring62    时间: 2012-2-11 21:23
蕊珠 发表于 2012-2-11 20:53
但按照1.5T的浮点运算是算不出与实际相符的理论性能的,只有按照2.372T算才与实际性能相符,我们可以定 ...

你是不是应该考虑推土机和2500k的游戏表现然后给出一个推土机的实际核心数/频率?
N和A的计算能力在游戏中得到利用的效率不同,所以理论浮点能力和游戏表现差距不一样很正常
你还非得弄个你认为“正确”的出来?
作者: 蕊珠    时间: 2012-2-11 21:26
spring62 发表于 2012-2-11 21:23
你是不是应该考虑推土机和2500k的游戏表现然后给出一个推土机的实际核心数/频率?
N和A的计算能力在游戏 ...

你们的脑子就不能转转吗,这个我计算性能用的浮点运算性能就不能定义成理论游戏性能?学过物理的就知道有静止质量,有运动等效质量。至少我用我这套公式计算游戏性能是成功的,反过来可以推测这个所谓的理论游戏计算能力是怎么回事。
作者: Edison    时间: 2012-2-11 21:27
蕊珠 发表于 2012-2-11 21:22
我说了我计算用的理论峰值可能不是NV所谓的单精度浮点运算,而可以定义为理论游戏运算性能。

NV核心单精度浮点运算的计算公式是流处理器频率*3*流处理器数量,当初GTX280的规格是240sp,流处理器频率1296M,算的单精度浮点运算为0.933T,与标称相符。用这种方法算得580单精度浮点运算是2.372T,和标称不符
这可是你前面说的,你这样的说法就体现了你对 NVIDIA 架构并不了解,在这样的情况下弄出来的理论性能怎么可能正确,然后再拿这个去推算性能趋势的话,参考性就会打折扣,你还是修正架构理论性能后再说吧。


作者: 蕊珠    时间: 2012-2-11 21:29
Edison 发表于 2012-2-11 21:27
这可是你前面说的,你这样的说法就体现了你对 NVIDIA 架构并不了解,在这样的情况下弄出来的理论性能怎 ...

我理论计算的和实际的都列在那个帖子里面了,里面不准确吗?
作者: Edison    时间: 2012-2-11 21:47
蕊珠 发表于 2012-2-11 21:29
我理论计算的和实际的都列在那个帖子里面了,里面不准确吗?

修正理论值计算方式后,足以让你的斜率截然不同。
作者: loverlong    时间: 2012-2-11 22:13
以后显卡不用评测了 ,直接代公式吧。
作者: cbr250xc    时间: 2012-2-11 22:40
Edison 发表于 2012-2-11 21:47 修正理论值计算方式后,足以让你的斜率截然不同。

老兄 104比580強多少,呢?
作者: G70    时间: 2012-2-11 22:50
提示: 作者被禁止或删除 内容自动屏蔽
作者: windyboy    时间: 2012-2-11 22:51
赶快出,有竞争才能有降价
作者: wales    时间: 2012-2-11 23:07
这规格,同频最多和580一样了,绝不会叫680的。
作者: D65    时间: 2012-2-11 23:36
看来是意外发现GTX660实在太强,都不好意思叫660了~~~
这也是为什么当初,GK104想直接跳到GTX760,这样才可以把GTX780留给GK110。

毕竟,中端卡都秒杀别人的旗舰卡,这一般是隔代才出现的事...

只是GK110又该怎么命名?GTX690显然不够意思,GTX685又显小了。
作者: lik    时间: 2012-2-12 01:38
NV的单精度浮点峰值不就是简单公式 cuda core数量 (就是传统的MAD运算单元) * shader 频率 * 2 吗? 哪有那么多jjyy的? 是峰值所以没有效率的问题. *2 是因为一个周期做了两条运算, 一个加 (Add), 一个乘 (Multiply).

所以GTX 580 是 512 * 772 * 2(倍频) * 2 = 1.58T.  官方就是这么算的.

按照这里的GK104的规格就是1536 * 950 * 2 = 2.92 T.

有那么复杂吗?
作者: 蕊珠    时间: 2012-2-12 12:02
lik 发表于 2012-2-12 01:38
NV的单精度浮点峰值不就是简单公式 cuda core数量 (就是传统的MAD运算单元) * shader 频率 * 2 吗? 哪有那么 ...

GTX280的计算公式却是流处理器频率*流处理器数量*3

作者: 蕊珠    时间: 2012-2-12 12:36
Edison 发表于 2012-2-11 21:27
这可是你前面说的,你这样的说法就体现了你对 NVIDIA 架构并不了解,在这样的情况下弄出来的理论性能怎 ...

这个问题可以这样来叙述,GTX280的单精度浮点运算值是0.933T,而显存带宽是141.7G,实际性能值为106.1;GTX580的单精度浮点运算值是1.581T,显存带宽是192.4G,实际性能值为224.1。GTX580以超出GTX280 70%的浮点运算和36%的带宽而获得了多出111%的性能值。按照常理分析,这是不可能的,内存带宽的计算公式不会有什么问题,问题应该出在浮点运算上面,这就说明官方的浮点运算性能不能反应真实游戏性能,必然有一个与游戏性能直接关于的性能值,我们姑且称其为理论游戏计算性能,经过修正,GTX280的理论游戏计算性能值与单精度浮点运算值一致,而GTX580的理论游戏计算性能值为单精度浮点运算值的1.5倍=2.372T时、即超出GTX280 154%时,理论游戏性能能超出GTX280 的86%。这个值与真实游戏性能有一定误差,可以这样理解,GTX280实际游戏性能低于理论值,因为其带宽有富余,导致实际利用带宽达不到设定值,这说明一个问题,理论游戏计算性能与内存带宽有一个合适比例的问题,只有相互之间不成为瓶颈,才能发挥硬件的最大效能,历史上512bit显存的的显卡都表现不如人意也是这个原因。
同样的思路也适合于AMD显卡,5870的单精度浮点运算值是2.720T,带宽153.6G,实际性能163.3;6970单精度浮点运算值2.703T,带宽176G,实际性能194.2。按常理推测,6970的浮点运算不如5870(99%),带宽多出15%却获得了多出19%的性能,这也说明AMD标称的单精度浮点运算不足于反应真实游戏性能,经过修正,6970的理论游戏计算性能为单精度浮点运算值*1.25=3.379时计算得理论游戏性能为194.1,5870的理论游戏性能为162.7,都与实际性能符合得很好。
最后说一点,AMD的单核旗舰在2900XT时代实际性能大幅低于理论性能(理论值56.3,实际43.8),说明当时的理论游戏计算性能不足于填满512bit、105.6G的显存位宽,后来的核心3870、4870、4890、5870、6970、7970实际性能值和理论性能值都符合得很好,说明AMD注意到显存带宽只有与合理比例的理论游戏计算性能相搭配才能发挥最大效力。
我说了这么多,你们还不明白就算了。
作者: 夏天的风    时间: 2012-2-12 12:39
蕊珠 发表于 2012-2-12 12:36
这个问题可以这样来叙述,GTX280的单精度浮点运算值是0.933T,而显存带宽是141.7G,实际性能值为106.1;G ...

我真觉得你不是一般的奇葩,明明就是自己的神棍公式有问题,非要说官方给出的数据是错的,非要说自己算出来的才是反映GTX580真实性能的,你太自我中心了,以为整个世界都是围绕你转
套用一句话:错的不是你,错的是世界
作者: 蕊珠    时间: 2012-2-12 12:55
夏天的风 发表于 2012-2-12 12:39
我真觉得你不是一般的奇葩,明明就是自己的神棍公式有问题,非要说官方给出的数据是错的,非要说自己算出 ...

算了,这个论坛的人科学素养真不敢恭维,我也懒得再费口舌了。
作者: Edison    时间: 2012-2-12 12:55
Tesla 20 的 dual-issue 只有在常见算术指令+MUL 的情况下才能实现,例如 MAD+MUL、ADD+MUL、MUL+MUL,它无法实现非 mul 搭配下的 dual-issue。

下面是 GTX 285 不同指令配合下的实测结果:

MAD_MUL_4D_Issue, 112.343079 B instr/s
MAD_ADD_4D_Issue, 81.068985 B instr/s
MAD_MAD_4D_Issue, 80.079788 B instr/s
ADD_ADD_4D_Issue, 80.597328 B instr/s
MUL_MUL_4D_Issue, 117.868050 B instr/s
MAD_MUL_1D_Issue, 400.709137 B instr/s
MAD_ADD_1D_Issue, 318.222809 B instr/s
MAD_MAD_1D_Issue, 314.463318 B instr/s
ADD_ADD_1D_Issue, 316.039337 B instr/s
MUL_MUL_1D_Issue, 452.638000 B instr/s
MUL_RSQ_1D_Issue, 160.182648 B instr/s
R600_MIX_Issue, 293.478088 B instr/s

对架构了解不够细致的情况下,你却将 Tesla 的 dual-issue 理想化,从而跑去“纠正” Fermi 的理论值计算方式实在是胡来。


作者: 蕊珠    时间: 2012-2-12 13:02
Edison 发表于 2012-2-12 12:55
Tesla 20 的 dual-issue 只有在常见算术指令+MUL 的情况下才能实现,例如 MAD+MUL、ADD+MUL、MUL+MUL,它无 ...

可以抽象出一个理论游戏计算性能出来,理论值与实际值肯定有偏差,但是能反应大致情况,而且对以往显卡的计算误差基本都在5%以内,误差大的都是诸如280这种带宽不成比例的卡(误差在10%以内),这是一种统计的方法,不同核心对不同指令集的处理肯定不一样,但会有一个统计规律,统计规律能反应一般情况,实在不懂去翻翻统计物理学。
作者: Edison    时间: 2012-2-12 13:04
http://www.pcinlife.com/article/ ... 9573687d844_23.html




作者: lacri    时间: 2012-2-12 14:32
Edison Chan说说GK104的性能吧?
作者: lik    时间: 2012-2-12 14:33
蕊珠 发表于 2012-2-12 12:02
GTX280的计算公式却是流处理器频率*流处理器数量*3

GT200里面的3是包括了MAD的2 和另外一个MUL. 从费米开始因为架构的变化, single precision peak flops算的是FMA单元, 所以计算公式改成了 core 数量 * 频率 * 2.

你查查文档就清楚了.
作者: lik    时间: 2012-2-12 14:42
蕊珠 发表于 2012-2-12 12:36
这个问题可以这样来叙述,GTX280的单精度浮点运算值是0.933T,而显存带宽是141.7G,实际性能值为106.1;G ...

实际测量的数值是峰值乘以利用率. 这个利用率是和架构有关的. 你说的"GTX580以超出GTX280 70%的浮点运算和36%的带宽而获得了多出111%的性能值。按照常理分析,这是不可能的", 这里没有考虑到因为架构的提高而带来的利用率的提高. 如果GTX280的实际运算单元的利用率只有GTX580的60%呢? 你还会觉得不可能吗?

你说的这些在相同的体系结构下面也许成立. 但是在不同的体系结构下面比较, 你这么说欠妥.
作者: lik    时间: 2012-2-12 14:49
本帖最后由 lik 于 2012-2-12 14:51 编辑
蕊珠 发表于 2012-2-12 13:02
可以抽象出一个理论游戏计算性能出来,理论值与实际值肯定有偏差,但是能反应大致情况,而且对以往显卡的 ...

我知道Intel, NV和AMD都有很多人专门开发模拟器来预测新的体系结构的性能. 我原来也做过很多相关的工作. 如果就你这么两下统计规律就能估算游戏的计算性能, 那些工程师都可以被fired了. 说句老实话, 到你开始自己参予开发一个CPU/GPU的时候, 就知道事情不是这么回事了.

当然也可能你是天才, 爱因斯坦再世. 那我也不在你面前献丑了.
作者: pharaohs1024    时间: 2012-2-12 15:49
提示: 作者被禁止或删除 内容自动屏蔽
作者: recruitbj    时间: 2012-2-12 19:32
吵吧,等着1200收6970玩玩

作者: loverlong    时间: 2012-2-12 19:55
本帖最后由 loverlong 于 2012-2-12 19:57 编辑

此真乃神人也。。。抛开架构规格,简单的以单精度浮点和带宽的所谓关联,弄出个什么理论性能值。以后显卡也别弄什么架构了,nv和amd那帮工程师可以直接fire了。oh my ladygaga!
作者: cynix    时间: 2012-2-12 23:04
下个月貌似可以见到GK107
作者: шīndМαп    时间: 2012-2-13 15:17
不管这消息是真是假,对A卡销售估计会有点影响




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4