POPPUR爱换

标题: 找到GTX680战胜7970的黑科技了! [打印本页]

作者: 久泉苍月    时间: 2012-4-13 15:54
标题: 找到GTX680战胜7970的黑科技了!
目前,大家都看到GTX680用80%的晶体管和核心面积,70%的带宽更低的功耗战胜了HD7970。但NV是怎么做到的么?
小月月口中NV的黑科技到底是什么?NV的晶体管效率高的原因是?

查看了之前NV和AMD的历代旗舰之争,发现自从统一构架以来。虽然每次都是以NV胜利告终,单AMD在显卡的Gflops性能上一直是大幅领先的!之前NV的旗舰虽然在性能上领先AMD,但在Gflops性能大约只有AMD的一半。但这次的680,大家看到Gflops性能已经超过了7970的70%!在Gflops性能上,NV首次和AMD如此接近!

Gflops性能和理论通用计算性能的关系是?

作者: coollab    时间: 2012-4-13 15:57
单AMD在显卡的Gflops性能上一直是大幅领先的!

AMD那个是VLIW 4D或者5D的的理论吞吐值,实际使用中会有极大的限制,性能最多有理论的十分之一就不错了……
作者: suzaku    时间: 2012-4-13 16:00
2楼悲剧了,HD7970并非VLIW 4D或者5D架构
作者: coollab    时间: 2012-4-13 16:01
本帖最后由 coollab 于 2012-4-13 16:02 编辑
suzaku 发表于 2012-4-13 16:00
2楼悲剧了,HD7970并非VLIW 4D或者5D架构

我说的是之前的,7970不在此列
楼主说:查看了之前NV和AMD的历代旗舰之争,发现自从统一构架以来。虽然每次都是以NV胜利告终,单AMD在显卡的Gflops性能上一直是大幅领先的!


之前这个东西……到现在的Tahiti,完全不同,所以,这个不能这么比的。我就是这个意思。

作者: iamw2d    时间: 2012-4-13 16:05
coollab 发表于 2012-4-13 15:57
单AMD在显卡的Gflops性能上一直是大幅领先的!

AMD那个是VLIW 4D或者5D的的理论吞吐值,实际使用中会有极 ...

单就vliw来说 最少5分之1 谢谢
至于游戏中的主要shader 平均效率应该超过70%了
作者: coollab    时间: 2012-4-13 16:09
iamw2d 发表于 2012-4-13 16:05
单就vliw来说 最少5分之1 谢谢
至于游戏中的主要shader 平均效率应该超过70%了

你还得考虑缓存之类的因素吧?各种等待,效率不会下降么?
作者: 围观    时间: 2012-4-13 16:29
理论峰值性能和通用计算实际性能, 得看软件怎么写了.
作者: coollab    时间: 2012-4-13 16:30
围观 发表于 2012-4-13 16:29
理论峰值性能和通用计算实际性能, 得看软件怎么写了.

囧,1/5也是5D的理论值嘛,有些计算还得考虑别的方向吧,综合来效率会更低,毕竟Tahiti之前的AMD GPU就不适合做复杂的并行计算。
作者: BDFMK2    时间: 2012-4-13 16:32
以前的A卡,速度80迈,IQ=60,
以前的N卡,速度60迈,IQ=90

现在GCN架构的A卡,速度=100,IQ=100
现在开普勒架构N卡,速度=120,1Q=80

总而言之,A卡小幅提速,大幅提IQ(超过了N卡)。NV大幅提速,IQ反而降低(但依然比以前的A卡聪明)
作者: mooncocoon    时间: 2012-4-13 16:33
BDFMK2 发表于 2012-4-13 16:32
以前的A卡,速度80迈,IQ=60,
以前的N卡,速度60迈,IQ=90

下面的IQ标反了。除非你觉得DP吞吐=IQ,但我从上面没看出你有这个意思……
作者: mooncocoon    时间: 2012-4-13 16:34
吞吐只有在单元复用率足够高或者强大到足够掩盖延迟的前提下才有意义。
作者: 围观    时间: 2012-4-13 16:36
coollab 发表于 2012-4-13 16:30
囧,1/5也是5D的理论值嘛,有些计算还得考虑别的方向吧,综合来效率会更低,毕竟Tahiti之前的AMD GPU就不 ...

你要考虑其他外围模块带来的效率降低, 那N卡照样达不到1D的理论峰值.

至于什么复杂的 "并行计算", 看你算什么了. 你要算folding@home, 那N卡牛逼, 但是boinc上很多项目都是A卡完爆N卡的, 这个和软件有关系, 我是门外汉就不多BB了免得失言.
作者: BDFMK2    时间: 2012-4-13 16:38
mooncocoon 发表于 2012-4-13 16:33
下面的IQ标反了。除非你觉得DP吞吐=IQ,但我从上面没看出你有这个意思……

IQ没标反啊!

7970的通用性能超过了GTX680。而680在部分通用计算测试中居然还输给了580
作者: coollab    时间: 2012-4-13 16:42
围观 发表于 2012-4-13 16:36
你要考虑其他外围模块带来的效率降低, 那N卡照样达不到1D的理论峰值.

至于什么复杂的 "并行计算", 看 ...

好吧,我也不扯了,其实我就是个打酱油的
作者: mooncocoon    时间: 2012-4-13 16:42
围观 发表于 2012-4-13 16:36
你要考虑其他外围模块带来的效率降低, 那N卡照样达不到1D的理论峰值.

至于什么复杂的 "并行计算", 看 ...

所谓“完爆”,基本上都是MAH以及密码学相关之类暴力吞吐的货……所以与其说是软件有关,不如说是跟应用方向有关。
蒙特卡洛类的应用是个好方法,但它既不是万灵药同时效率也极为低下,单纯暴力所适应的应用面是很狭窄的。
作者: 久泉苍月    时间: 2012-4-13 16:43
BDFMK2 发表于 2012-4-13 16:38
IQ没标反啊!

7970的通用性能超过了GTX680。而680在部分通用计算测试中居然还输给了580

这个应该表扬啊,7970目前在哪些非理论的通用计算项目中超过了580或者680?这代表AMD的通用计算终于成功了啊?从3870开始,AMD的理论通用性能一直大幅领先NV啊。
作者: mooncocoon    时间: 2012-4-13 16:47
本帖最后由 mooncocoon 于 2012-4-13 16:47 编辑
BDFMK2 发表于 2012-4-13 16:38
IQ没标反啊!

7970的通用性能超过了GTX680。而680在部分通用计算测试中居然还输给了580

别拧了……我都说好多次了NV目前还没有提供正确支持OCL的驱动,你宁愿相信在显存里进行原子操作比Cache里快一倍同时DP带宽比SP带宽大70%的测试结果,也不肯看一眼正常的SDK Simulation测试么?

WHQL是不会管OCL部分的死活的,所以OCL驱动会经常性的被双方忽略掉,截止到12.1为止Cayman都还不支持OCL DP测试,而NV从275之后的所有驱动都有整数运算的问题,这次的Kepler同样中了驱动的枪,在这种驱动环境下,能正常的只有DC测出来的通用计算性能了……

所以我老说Tahiti值得表扬,人家起码在首发驱动中就提供了相当好的OCL驱动支持和性能了。
作者: BDFMK2    时间: 2012-4-13 16:50
mooncocoon 发表于 2012-4-13 16:47
别拧了……我都说好多次了NV目前还没有提供正确支持OCL的驱动,你宁愿相信在显存里进行原子操作比Cache里 ...

文明5不就是DC的测试么,680还是输给7970了呀
作者: BDFMK2    时间: 2012-4-13 16:52
久泉苍月 发表于 2012-4-13 16:43
这个应该表扬啊,7970目前在哪些非理论的通用计算项目中超过了580或者680?这代表AMD的通用计算终于成功了 ...

比吞吐,680好像战胜了7970,但其他测试里没有捞到什么便宜。论坛里的GTX5贴过一个680的通用计算测试汇总,可以翻翻他的旧帖
作者: mooncocoon    时间: 2012-4-13 16:54
BDFMK2 发表于 2012-4-13 16:50
文明5不就是DC的测试么,680还是输给7970了呀

Gather4指令=材质操作能力,用Gather4来完成的DC加速材质操作过程会受到来自诸多层面因素的影响,其中最重要的一点就是显存带宽。
真正能够考验“通用计算性能”的是“通用计算过程”,如果不能做到会比图形关联带来的干扰,就要尽可能的明确这些干扰产生的原因同时将他们过滤掉,否则是无法获得纯净的通用计算性能的测试结果的。
SDK Simulation虽然已经很大的降低了图形过程的干扰,但距离纯净还有一定的距离,所以我还在等NV良心发现能提供好的OCL驱动。
作者: BDFMK2    时间: 2012-4-13 16:56
mooncocoon 发表于 2012-4-13 16:54
Gather4指令=材质操作能力,用Gather4来完成的DC加速材质操作过程会受到来自诸多层面因素的影响,其中最重 ...

哦,,看以后再说吧
作者: mooncocoon    时间: 2012-4-13 16:58
本帖最后由 mooncocoon 于 2012-4-13 16:59 编辑
BDFMK2 发表于 2012-4-13 16:52
比吞吐,680好像战胜了7970,但其他测试里没有捞到什么便宜。论坛里的GTX5贴过一个680的通用计算测试汇总 ...

GK104的吞吐测试并没有超越Tahiti,无论理论还是实际测试。G神的转载,或者说这个世界上绝大多数媒体所做的测试都是基于Sandra或者其他吞吐类型的测试软件,在这些测试中7970都保持了较大的优势,而为数极少的几家进行过GPCBenchmark测试的媒体并没有注意到GK104所表现出来的极其反常的测试结果。就这么简单。

目前想获得GK104的通用计算性能,可用的手段确实不多。SDK Simulation比较稳定同时干扰较小,算是现在比较好的选择了。
作者: jhj9    时间: 2012-4-13 17:10
本帖最后由 jhj9 于 2012-4-13 17:25 编辑
BDFMK2 发表于 2012-4-13 16:32
以前的A卡,速度80迈,IQ=60,
以前的N卡,速度60迈,IQ=90


真正做GPGPU的人的评价可与你YY的一点也不一样哦

http://www.(隔壁你知道是哪).com/thread-443412-1-4.html

“先前听说GCN计算性能不错,所以原本打算买来跑程序用。可跑了一圈测试样例才发现上了按摩店的当。很多场景甚至不如我先前的GTX480,故欲出之换老黄的680。”

“7970也许绝非媒体宣传的那样“为计算而生”。至少按照我的一点经验,它的特性跟先前的5870/6970没有本质区别,虽说VLIW换成了GCN多少提高了一些吞吐效率,但整体而言仍一个肌肉型选手。”

“从别人手里的680来看,虽说双精度砍的惨不忍睹,但至少前面那些关键组件性能很强,原子操作是Fermi的2倍以上”

更恰当一点的话
GCN是速度110,IQ=80
Kepler是速度100,IQ=100
作者: justwater    时间: 2012-4-14 09:03
黑科技教又出来了,胜就胜利了有啥好吹嘘的,不是老黄科技黑,是按摩店技术不够白。至于这样么。
作者: justwater    时间: 2012-4-14 09:08
一年一换的小玩意,值得这样伤脑细胞去研究么?让我想起了某电台的移动上网伴侣的广告:哇,哥们的装备忒强大了,最新拍的,4s……………我就吐了,两个加起来不到一万的东西,还装备强大。吃饱了撑的。
作者: KenLin    时间: 2012-4-14 09:18
为什么要用马甲发贴?
作者: 久泉苍月    时间: 2012-4-14 16:03
mooncocoon 发表于 2012-4-13 16:58
GK104的吞吐测试并没有超越Tahiti,无论理论还是实际测试。G神的转载,或者说这个世界上绝大多数媒体所做 ...

是不是可以理解为目前NV在理论测试中还是一贯的不给力啊?开普勒构架在理论测试中还是不会超越AMD ?
作者: 久泉苍月    时间: 2012-4-16 09:57
看到有技术帝说7970的构架本质上还是原来老4D构架的一个优化进阶产物,不是全新的构架,和NV的1D还是有很大的区别,这是对的么?
作者: mooncocoon    时间: 2012-4-16 10:15
久泉苍月 发表于 2012-4-16 09:57
看到有技术帝说7970的构架本质上还是原来老4D构架的一个优化进阶产物,不是全新的构架,和NV的1D还是有很大 ...

Tahiti已经抛弃了VLIW,现在还谈4D已经没有意义了。
作者: 久泉苍月    时间: 2012-4-16 11:18
mooncocoon 发表于 2012-4-16 10:15
Tahiti已经抛弃了VLIW,现在还谈4D已经没有意义了。

那就是说,AMD目前也和NV一样用1D构架了?
作者: rockyband    时间: 2012-4-16 11:27
justwater 发表于 2012-4-14 09:03
黑科技教又出来了,胜就胜利了有啥好吹嘘的,不是老黄科技黑,是按摩店技术不够白。至于这样么。

一语中地.
作者: potomac    时间: 2012-4-16 11:59
提示: 作者被禁止或删除 内容自动屏蔽
作者: 久泉苍月    时间: 2012-4-17 16:05
NV明显还是1D,只不过爆SP,没倍频了。




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4