|
关于G/S的讨论有了结果,游戏角度看,对于GPU而言可能需要很多cycles,而对于larrabee而言可能需要一些cycles。
向量单元--16个SP
上万strands--GPU线程
cache--GPU寄存器
三项对抗的结果,intel应该是希望完成三大奋斗目标:
向量单元的效率可以接近16个SP--可以讨论一下谁高谁低,能差多少。
而HW thread/fiber/strands能否达到GPU线程的效率--也可以讨论一下larrabee掩藏延迟的能力是否充分。
而新型向量指令/cache能否达到GPU寄存器的效率--还是可以讨论一下。
哪里是坑,可能要掉去下去了。 |
|