
NVIDIA 官方白皮书:
- 第三代 Streaming Multiprocessor(流式多处理器)
- 每个 SM 有 32 个内核,4 倍于 GT200 的 SM。
- 双精度浮点性能达到 GT200 的 8 倍。
- 配备双 Warp Scheduler(Warp 调度器),能每个周期对两个宽度为 32 线程的 Warp 进行排程和分发。
- 每个 SM 有 64kB 可配置为 shared memory 和 cache 的随机存取内存
- 第二代并行线程执行(PTX)ISA
- 统一寻址空间,提供完全 C++ 支持
- 针对 OpenCL 和 DirectCompute 作最佳化
- 完全的 IEEE 754-2008 32-bit/64-bit 精度支持
- 透过 Predication(论断)提升性能
- 改进的内存子系统
- 拥有可配置 L1 cache 和统一化 L2 cache 的 NVIDIA 并行数据高速缓存(PDC)
- 第一枚提供 ECC 内存支持的 GPU
- 显著提升原子内存操作性能
- NVIDIA GigaThread 3.0 引擎
- 应用程序上下文切换性能达到 10 倍于上代产品
- 同时执行多个核心程序(kernel,指的是程序中在 GPU 上执行的功能)
- 线程块(CTA)乱序执行
- 双重叠式内存传输引擎
问个关于C++的问题,这个GPU对C++的完全支持,是应用在开发者利用GPU编写C++代码提高开发效率呢?还是应用在用户执行C++程序时GPU提高程序运行效率呢?
voodoo12345 发表于 2009-10-2 19:23
所以,统一寻址对于提高可编程能力至关重要。至于原先不能写的东西,这个和C/C++的语义是符合的,const float *本来就是不能写,你非要强制转成float*然后写自然是后果自负,Fermi当然是理直气壮的死给你看。可以说CUDA从此之后可以有一个很大的进步,虽然现在还没有发布新的CUDA版本,但是可以值得期待。另外, 统一地址空间很容易诱惑程序员写出巨慢的代码 。C++也是。
这样我想起了PS3的统一地址空间,程序员不小心用CPU读写到显存出现性能巨幅下降,搞不清楚状况骂娘的情形。
RacingPHT 发表于 2009-10-2 23:00
P大的说法我赞同 , 关于指针语义上确实是统一了. 但是即便最终实现了C++的语法, 也大概还是486的级别的性能. 最终, 程序员还是要非常清楚里面究竟是什么. 因此, C++这种东西, 可能是减少了一开始的门槛, 但是最终要获 ...
RacingPHT 发表于 2009-10-3 00:41
hd4770:
我不知道NV的具体实现, 有没有一些其他的优化, 例如atomic操作会不会导致线程切换, 因此这个时间可以掩盖掉.
不过在大量访问的情形下, 是这个意思.
RacingPHT 发表于 2009-10-5 09:42
HD4770:
既然NV强调了Atomic op在同一地址下的性能改进, 那么有理由认为这个操作是有必要的.
例如producer-consumer模式, 一些CUDA线程在制造任务包, 另一些CUDA线程在消耗这些任务包, 可能会出现这种情况.也许需 ...
RacingPHT 发表于 2009-10-5 18:30
http://www.realworldtech.com/forums/index.cfm?action=detail&id=103306&threadid=103203&roomid=2
今天在 RWT 的讨论串看到 DK 说根据 AMD CTO 的说法,RV770 可以做到 CKE,不过在随后的讨论中,有人认为这个 ...
Edison 发表于 2009-10-7 00:33





"IMHO放到CPU上面也适用."
如果您说的CPU是x86的话, 我认为是不适用的. x86做的这么多事情, 就是为了用来吃烂代码的. 同样烂的代码放到Power, CELL之类的架构上, 一般都会变得非常糟糕, 到CUDA上则是只能说惨不忍 ...
RacingPHT 发表于 2009-10-3 15:33
IPC性能估计还不如Pentium Pro. But, who cares?
其实这句话是很有问题的.
即便有无穷多个运算单元可以将并行的时间减少为0, 一个程序总有一些部分是无法并行的. 这部分决定了一个程序的最高速度.
在CUDA ...
RacingPHT 发表于 2009-10-4 21:51
lik: 你说的关于thread和branch在GPU上的pipeline bubble我认为是错误的。
GPU遇到branch的时候的bubble比对CPU影响要大得多。因为SIMD的内在执行机制。
Anyway, 我个人不是一个CUDA的高手,我没有什么办法把我的 ...
RacingPHT 发表于 2009-10-22 14:09
如果都是算算矩阵乘法,做做视频转码的Motion estimation, 当然不会有太多的Warp被打碎的情况.这也是GPU的拿手好戏了.
但是,作为"通用计算",又怎么可能是这种情况呢.最典型的,80%算术,20%flow control.
...
RacingPHT 发表于 2009-10-22 14:39

文档似乎都是 CUDA 2.3 的。









| 欢迎光临 POPPUR爱换 (https://we.poppur.com/) | Powered by Discuz! X3.4 |