|
理论上每个 SM 可以每个周期输出 32 个像素 compoent(SIMD32 per warp / 1 cycle = 32 compoent/cycle),而每个像素需要 4 个 compoent,这样就是 32 compoent/4compoent/pixel = (8 pixels/SM) per cycle。
要令每个 SM 的吞吐率从 8 pixel 降低到 2 pixel,似乎就是内部带宽问题吧。
当然,似乎 GPC 本身的光栅化能力只能做到 8 片元(fragment) per cycle,这样算起来,就是 2 pixel per SM 了,此时瓶颈也就在 GPC 的光栅化能力上了。
|
|