POPPUR爱换

标题: Tegra4的Geforce ULP为何使用custom cores [打印本页]

作者: Vendicare    时间: 2013-1-8 09:59
标题: Tegra4的Geforce ULP为何使用custom cores
本帖最后由 Vendicare 于 2013-1-14 15:30 编辑

太平洋时间2012年1月7日 英伟达公司在CES2013大展上发布了其最新一代的Tegra4处理器,2.7倍于nexus 10的网络浏览能力让Tegra4处理器成为了目前业内几乎最快的ARM SOC系统。一同发布的shield游戏机在展示过程中也显示出了媲美次世代主机(指xbox360、PS3等业已存在的主机)的画面效果。作为软件写的最好的硬件企业,Tegra4一并为大家带来了自动HDR拍照功能以及可编程基带处理器功能。

然而这一切够好么?

答案是否定的。消费者以及投资人们已经被Nvidia的飞跃式发展惯坏了。Tegra4虽然已经是目前最快的移动处理器,但是它还不够惊艳。说好的统一渲染架构呢?说好的CUDA core呢?有的时候给人民以过高的期待其实不是一件好事。伴随着Tegra4的横空出世,nvidia股价应声下跌。

市场上期待的统一渲染架构没在Tegra4上面出现,无疑是大家对Tegra4不满的最大问题。然而谁想过为什么Tegra4 选择了custome cores?我们就来推测一下这个选择的原因吧。

作者: Vendicare    时间: 2013-1-8 10:01
标题: 主要矛盾和次要矛盾
本帖最后由 Vendicare 于 2013-1-14 15:42 编辑

我们都是生在新中国、长在红旗下的社会主义青年,马列主义分析方法不能忘。对于目前的移动GPU到底哪个是主要矛盾,哪个是次要矛盾我们一定要看清楚。

GPU的主要功能无非就是Transform and Lighting说人话就是多边形转换与光源处理。多边形转换是VS的事情,而光源处理以及渲染则是PS的事情。多边形建模其实需要说得不多,因为该技术现在已经很成熟了,而且目前的手机也不会用于显示特别复杂的多边形(16边型和256边型放在手机大小的屏幕上你就算长了透视眼也看不出区别)。重点我们要说的是光源处理以及渲染。

传统的一条渲染管线是由包括Pixel Shader Unit(像素着色单元)+ TMU(纹理单元) + ROP(光栅化引擎)三部分组成的。从功能上说PSU完成像素处理,TMU负责纹理渲染,而ROP则负责像素的最终输出。

对于目前的手机来讲,现有的计算能力基本上处于刚刚走过温饱的时代。市场上最常见的PVR 540每秒可建立2800万三角形,像素填充率(亿/秒):5亿;Adreno 205多边形输出(万/秒):4500万 像素填充率(亿/秒):2.45亿。这是什么水平呢?基本上在1024*768分辨率下运行重返狼堡的Communique地图就需要2500万多边形,8亿纹理填充填充。换言之,目前的移动GPU的饥饿点并不在光源处理上。基本图像生成中必要的三角形生成与纹理贴图这些基本工作已经让移动GPU捉襟见肘了。
[attach]2147357[/attach]
狼堡这张图留着不少人的回忆,也能累死大半的移动GPU

浮点渲染?HDR?光栅化处理?这些都是让人过目不忘的图形技术。但是,这些并非移动GPU目前必须考虑的事情,而且能做到这些的移动GPU也有限。细细说起来第一款在手机上跑的带有HDR demo的移动GPU其实就是geforce ulp。恰恰如此,早期的Geforce ULP研发人员没有学好马列主义:没有解决好主要矛盾,先去解决次要矛盾了。最终结果就是Geforce ULP在专门优化的THD游戏中能够展现出超越所有对手的人无我有的惊艳画面,然而在大多数常见游戏中表现并不突出。

为了生动展现这个问题,我特意的玩了半个小时iphone游戏并且截图,顺便奉上Geforce ULP的专有demo供大家参考:
iphone5画面大作CSR:
[attach]2141373[/attach]
虚幻引擎大作天狼星任务:
[attach]2141372[/attach]

再奉上nvidia的小球demo:
http://kuai.xunlei.com/d/U2FtABbzw5TrUAQA5e2

从截图和demo中可以看出,iphone5虽然性能彪悍,但是图形技术依然停留在DX7时代。但是IOS上的这些经典游戏妥善运用了DX7技术,一样做出了到惊艳的画面。

相反,Geforce ULP虽然能够提供能很好的功能,然而小球demo这么简单的场景就把Geforce ULP的性能淋漓尽致的榨取出来了,想在游戏中把所有的先进功能用上显然不太现实。

综上所述,目前来看掌上GPU的性能依然捉襟见肘,做好GPU该做的事情才是首要矛盾,CUDA以及OpenCL是可以留给未来解决的次要矛盾。

作者: Vendicare    时间: 2013-1-8 10:01
标题: 让掌上GPU用上CUDA难点在哪里?
本帖最后由 Vendicare 于 2013-1-8 13:30 编辑

先黑一下GZ,下面用到的图片统统裁剪过,因为GZ不让上传大图片。图片版权归nvidia,侵权怪GZ。

虽然光影处理、GPU通用计算以及统一渲染等附加值技术并不是掌上GPU急于解决的问题,但是这些东西有总比没有好。既然nvidia没有提供CUDA core自然是有难处。而难处在哪里呢?

答案:Thread Scheduler Unit

Thread scheduler unit这东西具体该叫什么我们不做纠结,其功能就是控制各个SP单元之间的线程分配。这个单元并不是在GPU中与生俱来的。因为GPU起初是为图形处理设计,对指令集的依存度很低,即使再多线程数量也仍然能保持并行处理性能维持在高水平不变。举例来说,对于3D角色的反射光计算,每个多边形反射光计算中法线处理互不相干,因此多边形数量再多也不会造成瓶颈,GPU的运算能力可以充分发挥。
[attach]2141430[/attach]

GPU实际并行计算示例:复杂多边形的反射光处理运算:
[attach]2141431[/attach]

如果你的追求不是很复杂那么其实GPU的结构并不复杂。但是人们总是贪婪的,当GPU能够把朴素的3D图形做得很好时,更多的要求就来了。2006年左右GPU开始跨入统一渲染架构,随着每个SP功能变得越来越复杂、SP数量越来越多。原来在G70时代根本无足轻重的线程分配突然变成了大问题。

NVIDIA在G80架构中首次在芯片和流处理器(SM)级别都加入了线程管理机能"Thread Scheduler",此后随着图形核心的发展,在Fermi架构上Thread Scheduler进化为"Gigathread Engine",使得并行运算性能进一步得到大幅提高。由于A\N两家在GPU线程处理器上重视程度上的不同,相同浮点吞吐量的N系显卡一度能够超越A系显卡3倍以上的性能。线程分配的重要性可见一斑。

EVA初号机(G80)的线程处理器工作示意图:
[attach]2141451[/attach]

G80核心裸照:
[attach]2141471[/attach]
GT200核心裸照:
[attach]2141470[/attach]
费米核心裸照:
[attach]2141472[/attach]

从核心裸照来看,随着GPU晶体管数量的爆炸性增长占据最中央位置的线程处理器占据的面积一点都没有变小。在CUDA Core数量一路飙升的况下,如果再增加势必会给线程管理模块部分带来更高负荷,甚至有发热过高烧毁的危险。开普勒开始已经把一部分的scheduler工作交给CPU来做了,下一代的Maxwell更是需要专用的高性能处理器Project Denver来完成线程分配。

我们再来看看Tegra4 的die shot:
[attach]2141483[/attach]

要想安排下一个线程处理器是不是得拿掉伴核了?

事实上要想完成线程处理器的功能的确需要如此。目前暂不知Tegra4的GPU工作频率如何,假设工作于200Mhz这个数字不高。72个处理器全部都为1D单元。假设全部单元都在处理图形运算中常见的4D运算则线程分配处理器需要的计算能力大约为200Mhz*72/4=3600MIPS。要想让72个处理器完美的全力工作起来,理论上的线程处理器性能需求可以让ARM核心运算力枯竭。虽然这个理论值与实际上的需求有很大差距,但是依然可以看出以现有的水平整合一个72core的CUDA核心难度还是很大的。

当然类似AMD的5D架构或者类似开普勒的SMX阵列对于减轻线程处理器负载是有莫大帮助的,但是显然nvidia还没能解决这些问题。短期内看来也是攻坚无望。

72核心custom core看来是无奈之举了。

作者: Vendicare    时间: 2013-1-8 10:24
标题: 高级图形功能和统一渲染有必然联系么?
本帖最后由 Vendicare 于 2013-1-8 16:20 编辑

好吧,这部分我虽然想写但是实在是难以写好。原因很简单:我不知道在大家心目中统一渲染和高级图形特性之间会产生怎么样的联系。所以呢,想到哪写到哪。

说道统一渲染到底什么时候和高级图形特性联系起来,这个大概是在2006年左右的A\N广告大战中出现的。当时ATI宣称自己的R600将成为第一款统一渲染架构的真DX10 GPU,而nvidia的首席科学家David Kirk则宣称DX10和PS/VS没有必然联系分离渲染也挺好。故事的后来不重要,重要的是在AMD强大的统一渲染宣传攻势中自此之后很多人心里产生了一个定式:想要DX10就要统一渲染架构。

不过事实却是:查遍所有的DirectX技术文件,没有一个字描述过统一渲染架构。DirectX 10只需要Vertex Shader, Geometry Shader(没有也无所谓) and Pixel Shader 。不管分离式还是统一式只要提供这些个功能就一切OK了。D.Krik当年的访谈虽然是放了巨型烟幕弹,不过说的其实是实话。

既然实现高级图形特效并不一定需要统一渲染架构,那么GPGPU计算呢?
答:也不必用统一渲染架构。翻看OpenCL的所有技术文件。没有Unified shader的任何相关描述。回顾历史,第一款可以做复杂科学计算的显卡是Geforce FX5800,第一款以通用计算为卖点的显卡是FireStream 580这些显卡都是分离渲染架构。理论上只要缓存模型符合标准、进程间通信能力符合标准分离架构依然可以通过自己的PS单元实现OpenCL计算。当然这是理论上的可行。

统一渲染是未来的大趋势,但是趋势不会立刻自动实现。在一些现实的问题解决前分离渲染依然是唯一的选择。借用D.Krik的一句话: It's true that Unified-Shader is flexible, but it's more flexible than actual need. It's like 200-inches belt. If it's 200-inches it fits you however overweight you are, but if you're not overweight it's useless.


作者: aibo    时间: 2013-1-8 10:26
卤煮愿赌服输了

不过也不能拿期货来忽悠啊
作者: f0f0f0    时间: 2013-1-8 10:28
先占座mark
作者: 我爱我猫DLC    时间: 2013-1-8 10:48
站位置等更新,看来大家的眼睛还是雪亮的啊。
作者: nhl2009    时间: 2013-1-8 11:17
什么时候有能运行window系统的U出来,多个选择是好的,三足鼎立。
作者: 扫帚    时间: 2013-1-8 11:42
期货不优啊
作者: divx001    时间: 2013-1-8 12:35
yysqu 发表于 2013-1-8 12:27
一方面提高cpu规格继续骗钱,另一方面又说GPU的高级特性在手机上无用武之地,是要搞那样。。。
另外现在平 ...

统一渲染构架什么时候成了GPU高级特性?两码子打不着的事。

powerVR是统一构架那又怎么样,554支持的高级3D特效还远还不如8年的GTX6800
作者: lik    时间: 2013-1-8 13:11
一个简单的问题不要弄得太复杂. Tegra2的GPU的Vextex shader和raster是nv4x的, pixel shader是另外设计的, 因为nv4x的PS太大装不进来. Tegra3的主要重点是四核, GPU就是简单的把Tegra2翻倍而已. 到Tegra4,GPU性能终于提上议事日程, VS/PS都在T3的基础上复制6倍(当然还有其它的一些辅助改进). 就这么简单.
作者: huangpobu    时间: 2013-1-8 13:28
本帖最后由 huangpobu 于 2013-1-8 13:29 编辑
因为GPU起初是为图形处理设计,对指令集的依存度很低,即使再多线程数量也仍然能保持并行处理性能维持在高水平不变。举例来说,对于3D角色的反射光计算,每个多边形反射光计算中法线处理互不相干,因此多边形数量再多也不会造成瓶颈,GPU的运算能力可以充分发挥。

这段话讲的不明不白的。对指令集的依存度还是对指令级并行性的依存度?

应该说图形处理天生具备很强的数据级并行特征,同样的一组指令可以应用于很多数据,并且这些数据的计算过程互不相关,于是可以从中掘取出很强的并行性,每个SM core可以在各个warp和各个线程的指令间跳来跳去,这个线程访存停顿了就跳到另一个线程的指令去执行,从而把延迟重叠掉,这种并行性越强,重叠延迟的能力就越高。
作者: huangpobu    时间: 2013-1-8 13:32
本帖最后由 huangpobu 于 2013-1-8 13:32 编辑

554支持的高级3D特效还远还不如8年的GTX6800

能说说这两个GPU都支持什么高级特效么?
作者: Vendicare    时间: 2013-1-8 15:47
本帖最后由 Vendicare 于 2013-1-8 15:52 编辑
huangpobu 发表于 2013-1-8 13:28
这段话讲的不明不白的。对指令集的依存度还是对指令级并行性的依存度?

应该说图形处理天生具备很强的 ...

这句话确实讲的不明不白,但是事情本身也不是那么泾渭分明。写的时候应该是指令级并行,但是仔细想想笔误反倒更准确。


我的本意是指的SIMD、EPIC、MIMD这类的并行方式,但牵扯其中离不开指令集。为了扩展并行计算的通信功能,PTX指令集也在一路扩展寄存器管理、线程间通信等功能。比如PTX 3.0就增加了新的warp shuffle instruction。
作者: huangpobu    时间: 2013-1-8 16:17
Vendicare 发表于 2013-1-8 15:47
这句话确实讲的不明不白,但是事情本身也不是那么泾渭分明。写的时候应该是指令级并行,但是仔细想想笔误 ...

感谢作者回复 :)

我就是随口一说,自己也是随便写的哈哈
作者: Xenomorph    时间: 2013-1-8 19:15
Vendicare 发表于 2013-1-8 10:24
好吧,这部分我虽然想写但是实在是难以写好。原因很简单:我不知道在大家心目中统一渲染和高级图形特性之间 ...

Nice to see you today~ Geometry Shader可不可以理解为Polymorph Engine实现Tessellation的前奏?
作者: Vendicare    时间: 2013-1-8 19:56
Xenomorph 发表于 2013-1-8 19:15
Nice to see you today~ Geometry Shader可不可以理解为Polymorph Engine实现Tessellation的前奏?

话是这么说,只是没什么游戏用到了这个Gs.

本来是vs做的事情单独分出个gs我觉得意义不是很大
作者: Xenomorph    时间: 2013-1-8 20:16
Vendicare 发表于 2013-1-8 19:56
话是这么说,只是没什么游戏用到了这个Gs.

本来是vs做的事情单独分出个gs我觉得意义不是很大

这么说只要流水线上增加相应的专用功能单元,分离渲染架构同样可以适用到DX11的范畴?
作者: GTX999    时间: 2013-1-8 21:53
gf7那种非统一渲染的sp就是渣
作者: Vendicare    时间: 2013-1-8 21:54
Xenomorph 发表于 2013-1-8 20:16
这么说只要流水线上增加相应的专用功能单元,分离渲染架构同样可以适用到DX11的范畴?

理论上如此,nvidia前任首席科学家David Krik这么说过。
作者: Xenomorph    时间: 2013-1-8 22:00
Vendicare 发表于 2013-1-8 21:54
理论上如此,nvidia前任首席科学家David Krik这么说过。

了解,谢谢~Wayne前端莫非是24VS—48PS—12TMU?
作者: Vendicare    时间: 2013-1-8 22:01
本帖最后由 Vendicare 于 2013-1-8 22:01 编辑
GTX999 发表于 2013-1-8 21:53
gf7那种非统一渲染的sp就是渣

非统一渲染哪来的shader processor?

另外GF7系列怎么渣了?愿闻其详
作者: Vendicare    时间: 2013-1-8 22:01
Xenomorph 发表于 2013-1-8 22:00
了解,谢谢~Wayne前端莫非是24VS—48PS—12TMU?

木有资料,不敢拍大腿啊!
作者: Xenomorph    时间: 2013-1-8 22:05
Vendicare 发表于 2013-1-8 22:01
木有资料,不敢拍大腿啊!

Tegra 2的前端是4VS—4PS—1TMU;Tegra 3的是4VS—8PS—2TMU;前面某个温柔善良漂亮可爱的女孩子说了“在Tegra 3的基础上放大为6倍”,不就是24VS—48PS—12TMU了……
作者: Vendicare    时间: 2013-1-8 22:11
本帖最后由 Vendicare 于 2013-1-8 22:14 编辑
Xenomorph 发表于 2013-1-8 22:05
Tegra 2的前端是4VS—4PS—1TMU;Tegra 3的是4VS—8PS—2TMU;前面某个温柔善良漂亮可爱的女孩子说了“在 ...

这个目前俺既没看见white paper,也没看见实物啊。

虽然24VS—48PS—12TMU可能性非常非常大,但是我不确定。一来12TMU比较可疑,二来如果T4想要支持DX10甚至DX11的话是否要加入GS和CS也不好说(我认为GS应该可以通过VS扩展,CS则通过PS实现比较容易输出)。
作者: Xenomorph    时间: 2013-1-8 22:17
Vendicare 发表于 2013-1-8 22:11
这个目前俺既没看见white paper,也没看见实物啊。

虽然24VS—48PS—12TMU可能性非常非常大,但是我不 ...

请问CS是那种shader?
作者: Vendicare    时间: 2013-1-8 22:23
Xenomorph 发表于 2013-1-8 22:17
请问CS是那种shader?

CS = Compute Shader != counter strike

compute shader是DX11的新特性,和GS一样的了无新意。
作者: coollab    时间: 2013-1-8 22:30
Vendicare 发表于 2013-1-8 22:11
这个目前俺既没看见white paper,也没看见实物啊。

虽然24VS—48PS—12TMU可能性非常非常大,但是我不 ...

为了上高分辨率,搞12个TMU也可以理解吧?
作者: Xenomorph    时间: 2013-1-8 22:32
Vendicare 发表于 2013-1-8 22:23
CS = Compute Shader != counter strike

compute shader是DX11的新特性,和GS一样的了无新意。

这么说Compute Shader像是一种通用单元了……都没有专门负责图形渲染工作的某一个流程……
作者: Vendicare    时间: 2013-1-8 22:42
本帖最后由 Vendicare 于 2013-1-8 22:42 编辑
Xenomorph 发表于 2013-1-8 22:32
这么说Compute Shader像是一种通用单元了……都没有专门负责图形渲染工作的某一个流程……

其实从FX5800时代开始Pixel shader就具备完善的数学计算能力,最早就有人用FX5800算蛋白质折叠(参考《GPU Gem1》)。

Compute shader需要的就是算术运算单元,别的倒不是很重要。
作者: Vendicare    时间: 2013-1-8 22:45
coollab 发表于 2013-1-8 22:30
为了上高分辨率,搞12个TMU也可以理解吧?

额,12个TMU自然是有可能啦。不过这样就要赶上GT630了,T4到底要闹哪样。
作者: coollab    时间: 2013-1-8 22:47
Vendicare 发表于 2013-1-8 22:45
额,12个TMU自然是有可能啦。不过这样就要赶上GT630了,T4到底要闹哪样。

8个比较合理吧?
我猜的……
作者: Xenomorph    时间: 2013-1-8 22:49
Vendicare 发表于 2013-1-8 22:42
其实从FX5800时代开始Pixel shader就具备完善的数学计算能力,最早就有人用FX5800算蛋白质折叠(参考《GP ...

话说nVIDIA能不能怀旧一下,用一共接近2000个专用职能算术逻辑单元打造一个能耗比、绝对性能都比GK104高的GPU呢?
作者: Vendicare    时间: 2013-1-8 22:56
Xenomorph 发表于 2013-1-8 22:49
话说nVIDIA能不能怀旧一下,用一共接近2000个专用职能算术逻辑单元打造一个能耗比、绝对性能都比GK104高的 ...

这个应该比较难,主要是不符合Nvidia的GPGPU发展趋势。硬件简单了,软件开发人员就麻烦了。

Cg进行通用计算的时候编程方法比较痛苦,可以说痛不欲生。
作者: Xenomorph    时间: 2013-1-8 22:59
Vendicare 发表于 2013-1-8 22:56
这个应该比较难,主要是不符合Nvidia的GPGPU发展趋势。硬件简单了,软件开发人员就麻烦了。

Cg进行通用 ...

分开工程师,GPGPU一条路,图形性能冲击极限的能耗比另一条路……
作者: Vendicare    时间: 2013-1-8 23:14
本帖最后由 Vendicare 于 2013-1-8 23:24 编辑
Xenomorph 发表于 2013-1-8 22:59
分开工程师,GPGPU一条路,图形性能冲击极限的能耗比另一条路……

D. Kirk: Our DirectX 10 GPU may be Unified-Shader, or not. Everyone thinks I said "we won't go there (Unified-Shader)." But what I said is just you can't know it until (our GPU) debuts.

D. Kirk: When's the right time for a Unified-Shader hardware, that's the problem. I agree that in future GPU will be simpler, less kinds of processors. Different hardware pieces such as Vertex Shader, Pixel Shader, ROP, frontend processor and Tesselator will change into a single piece that can do all things one day. But it takes time and can't be done at once. The change will happen progressively.

D. Kirk: The cost (of US) is huge. For example, (an updated architecture of) G71 can support "Unified" programming model, but (even in that case) execution is not Unified. The performance/mm^2 (die size) of G71 is very high. On the other hand, The performance/mm^2 of Xbox 360 GPU (with Unified-Shader) (Xenos) is lower. Which do you prefer?

D. Kirk: It's true that Unified-Shader is flexible, but it's more flexible than actual need. It's like 200-inches belt. If it's 200-inches it fits you however overweight you are, but if you're not overweight it's useless.

One of the reasons that support Unified-Shader is it enables better load balancing. You can assign Shader to pixel processing if required, and to vertex processing too. But, in the end, in most cases pixel processing is required. For example you may render 100 million pixels but not 100 million polygons. Of course, even if the setup unit can draw 100 million polygons.

D. Kirk: In the logical diagram of D3D 10, Vertex Shader, Geometry Shader and Pixel Shader are placed side by side. What happens if they are placed in the same box? Each Shader is a different part. If they get unified they become wasteful.

Besides, it requires more I/O (wires) because all connections with memory concentrate on the box. Registers and constants are put in a single box too. It's because you have to keep all vertex states, pixel states and geometry states together while doing load balancing. A bigger register array requires more ports.

D. Kirk: Let's take a look at the computation trend. A simple CPU of 20 years ago had only 1 function unit. In other words, it was Unified-Shader. (laugh) But now even Intel doesn't design such a CPU.

Complicated operations always give us the possibility to make many operations parallel. So we've been evolved GPU by making different pieces busy at the same time in a pipeline approach. If you distribute (a pipeline) to 20 operations each piece can do 20 operations by processing them in parallel. But if all are Unified you have to do 20 operations on 20 processors (Shaders).

I'm not saying Unified-Shader is not a good idea. But to enable (a single Shader) to do everything is a lot more difficult than expected. So I think it will go progressively.

D. Kirk: Even though they say it's a unified pipeline I think it's a hybrid and not completely unified. It's possible that it's an incomplete Unified-Shader with some parts unified but other parts shared.

It's not that I have a proof of that. But it should be the right decision for them. I think they don't make waste in Unified-Shader as they are clever.

D. Kirk: We want to remove special-purpose units from GPU. On the other hand, we also want to run (special graphics functions) really fast. If you remove all special-purpose implementations from GPU it's just a Pentium.

---------总之大神说:我也这么想................
作者: Xenomorph    时间: 2013-1-8 23:45
Vendicare 发表于 2013-1-8 23:14
D. Kirk: Our DirectX 10 GPU may be Unified-Shader, or not. Everyone thinks I said "we won't go the ...

嗯嗯~加油吧……
作者: lik    时间: 2013-1-9 02:44
本帖最后由 lik 于 2013-1-9 02:45 编辑
Xenomorph 发表于 2013-1-8 22:05
Tegra 2的前端是4VS—4PS—1TMU;Tegra 3的是4VS—8PS—2TMU;前面某个温柔善良漂亮可爱的女孩子说了“在 ...

I am not a girl BTW. And 6x is only for VS and PS.

作者: Xenomorph    时间: 2013-1-9 10:36
lik 发表于 2013-1-9 02:44
I am not a girl BTW. And 6x is only for VS and PS.

Haha~ Please don‘ t be angry, Lik~ But the increase or decrease of the PS and TMU is proportional since NV4X……
作者: aibo    时间: 2013-1-9 13:09
据说是T4 的颜摄(等比例)
DX们来分析一下
[attach]2142366[/attach]


作者: huangpobu    时间: 2013-1-9 13:57
本帖最后由 huangpobu 于 2013-1-9 13:57 编辑
Xenomorph 发表于 2013-1-8 22:49
话说nVIDIA能不能怀旧一下,用一共接近2000个专用职能算术逻辑单元打造一个能耗比、绝对性能都比GK104高的 ...

这么做行的话肯定这么做了。

功能单元一多,scoreboard也要大,dispatcher也要大,可能效率和能耗就不尽如人意了。
作者: Xenomorph    时间: 2013-1-9 14:00
huangpobu 发表于 2013-1-9 13:57
这么做行的话肯定这么做了。

功能单元一多,scoreboard也要大,dispatcher也要大,可能效率和能耗就不 ...

原来如此……
作者: 66666    时间: 2013-1-9 14:09
aibo 发表于 2013-1-9 13:09
据说是T4 的颜摄(等比例)
DX们来分析一下

GPU部分可以不看了,全部都PS掉了。

其他部分也没啥好说的,不过A15确实比想象中的要小。
作者: GTX999    时间: 2013-1-10 12:16
Vendicare 发表于 2013-1-8 22:01
非统一渲染哪来的shader processor?

另外GF7系列怎么渣了?愿闻其详

http://news.mydrivers.com/1/251/251956.htm 去闻其详吧 看看有多渣 连nexus 10都跑不过
作者: Xenomorph    时间: 2013-1-10 12:40
lik 发表于 2013-1-8 13:11
一个简单的问题不要弄得太复杂. Tegra2的GPU的Vextex shader和raster是nv4x的, pixel shader是另外设计的,  ...

So, now we can see 2.5x is the performance increase. What' s the problem?
作者: guanqq_64    时间: 2013-1-10 13:09
本帖最后由 guanqq_64 于 2013-1-10 13:10 编辑
divx001 发表于 2013-1-8 12:35
统一渲染构架什么时候成了GPU高级特性?两码子打不着的事。

powerVR是统一构架那又怎么样,554支持的高 ...
Geforce6800 前面不带GTX的
作者: lik    时间: 2013-1-10 14:00
Xenomorph 发表于 2013-1-10 12:40
So, now we can see 2.5x is the performance increase. What' s the problem?

2.5x of what, T30? Come on...
作者: Xenomorph    时间: 2013-1-10 14:04
lik 发表于 2013-1-10 14:00
2.5x of what, T30? Come on...

Yes. http://we.pcinlife.com/forum.php ... mp;authorid=528240. Is it true? The increase of ALU scale is much much more……
作者: lik    时间: 2013-1-10 14:14
If you lower the clock you could get only 1x of T30. What is the point?
作者: Xenomorph    时间: 2013-1-10 14:22
lik 发表于 2013-1-10 14:14
If you lower the clock you could get only 1x of T30. What is the point?

I see…… The clock is so important……
作者: yangrongzuo    时间: 2013-1-12 18:02
复杂  我对个人手机 暂时在图形处理上 不会太大要求   不过还是支持技术进步     
作者: trotsky    时间: 2013-1-14 10:52
本帖最后由 trotsky 于 2013-1-14 10:53 编辑

手里两台设备Tegra2用了一年多的表示蛋疼。
上个月700入了Ti的双核设备表示随便秒Tegra2.

T3更不考虑,现在换代的话肯定入高通的。

T4麽,看看测评吧。实验室里的拿出来还是靠使用体验说话。
作者: gz_easy    时间: 2013-1-14 15:10
顶了再看
作者: NG6    时间: 2013-1-19 17:50
转我BLOG了............
作者: yee2010    时间: 2013-1-29 16:57
主要矛盾和次要矛盾
作者: jnznh    时间: 2013-2-27 15:18
纯技术贴,看留言比看正文还需要技术!
作者: goldman948    时间: 2013-2-27 15:25
GTX999 发表于 2013-1-10 12:16
http://news.mydrivers.com/1/251/251956.htm 去闻其详吧 看看有多渣 连nexus 10都跑不过

现在看来没那麽渣阿
作者: xchy    时间: 2013-2-27 21:40
太专业...
作者: 路西法大大    时间: 2013-2-27 23:10
本帖最后由 路西法大大 于 2013-2-27 23:13 编辑

其实就是通用架构的单元效能没有专用的单元高而手机游戏只要是for THD也就是专门为tegra优化的情况下是能发挥出芯片的全部效能的,也就是游戏所用到的VS性能和PS性能的比例分配将会灰常趋向于tegra内部的架构设置...tegra3平板用户路过
作者: 54cyy    时间: 2013-3-3 20:42
谢谢楼主分享!
作者: ghibli1979    时间: 2013-4-13 21:13
好高深   帮顶
作者: bourne0325    时间: 2013-5-31 17:56
统一渲染是未来的大趋势,但是趋势不会立刻自动实现。在一些现实的问题解决前分离渲染依然是唯一的选择。
我表示赞同
作者: wqaiwy    时间: 2013-8-11 19:50
提示: 作者被禁止或删除 内容自动屏蔽




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4