|
以下是 Everygreen 的架构概况:
20 SIMD Cores
——每个 SIMD Cores 包含一个 5D ALUs,共计 1600 ALUs
80 Texture Unit
——每个 SIMD Cores 有 4 个 TU
拥有两个 Rasterizer 单元,Hierarchial-Z 单元也倍增(两个),但是 Geometry/Vertex Assembler依然各为一个
——使用 SIMD Core 执行三角形内插,不再使用独立的硬件单元执行此操作,SIMD Core 为此新增了内插指令(lrp?)
提升了 Constant Buffer 的性能
更快的 Geometry Shader 性能
OpenGL 方面,实现了 12-bit 子像素精度,提升了 Line 的渲染性能以及 clippiing 操作的速度
双精度性能为 544GFLOPS。
IPC 方面的增强
——更灵活的 dot product 指令执行
——能实现单周期 MUL、dependent ADD 指令的 Co-issue
——支持提供 SAD 指令硬件执行,可透过 OpenCL 实现
纹理单元及 cache 方面
——每秒完成 68B 双线性过滤的纹理元素
——每秒完成 272B 32-bit 纹理 fetch
——L1 tex cache 带宽为 1TB/s
——L1 to L2 带宽为 435 GB/s
——每个内存控制器搭配 128KB L2 cache
——支持 16k*16k 纹理
——支持 DX11 的 BC6/7 压缩纹理
——完美无角度相依各向异性纹理过滤,性能衰减度与以前的 AF 算法一致
——理想的细节度调整确保更高的纹理贴图质量
AA 方面,基本上单周期性能总体倍升,不过现在纹理单元可以从压缩的 AA 色彩缓存中读取数据,并且会提供 Supersampling AA(以前只是在 RADEON 8500 公开过)
Stream Computing 方面
——遵循 IEEE 754-2008 精度要求
——提供 NVIDIA GT200 引入的 Coalesces Memory Write
——Scatter 操作可以做到单周期 64 个 32-bit 数值,上一代是 32 个,不过......
——支持 32-bit 原子操作
——可弹性配置的 32KB LDS(各个 SIMD core 一份 LDS,每份 32kB)
——全芯片有一个 GDS(Global Data Share),大小为 64KB
——能实现全局同步
——Append/Consume Buffer |
|