POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
123
返回列表 发新帖
楼主: 樟树
打印 上一主题 下一主题

非对称显存性能带宽讨论

  [复制链接]
41#
 楼主| 发表于 2012-9-22 22:21 | 显示全部楼层
本帖最后由 樟树 于 2012-9-22 22:30 编辑
westlee 发表于 2012-9-22 22:17
差不多就在这附近了,测试前gpu-z报告的显存占用为133m
bandwidthTest.exe Starting...

好,多谢。
现在我们数据完整了。

GTX670和GTX680不经过缓降,直接降低到PCI-E/PCI-E2.0 双向带宽级别。这是不是爆显存的现象有待讨论。
如果是爆显存,那就和GTX480,GTX650一样,典型的对称显存的表现。

而从他们的表现出发,预计GTX660/660Ti在分配1GB spacer后会从满带宽(1理论值144GB/s)经过128MB左右缓降到带宽三分之一(理论48GB/s),然后有400MB左右保持在48GB/s,再在1.5GB左右突降到PCI-E带宽等级,或者直接out of memory。

如果符合这个预测,那么就证实了两点:
1. GTX660/660Ti存在和GTX550Ti一样的非对称显存的弱点,四分之一左右容量带宽只有三分之一
2. GK104用你们用的驱动跑CUDA爆显存时表现和以前卡不大一样,可能分配到内存去了。

回复 支持 反对

使用道具 举报

42#
 楼主| 发表于 2012-9-23 11:41 | 显示全部楼层
mooncocoon 发表于 2012-9-23 11:22
550Ti和670/680的表现一样是相同的。起码在当前的代码环境下并不存在所谓容量占有超越一定程度之后带宽就会 ...

我认为这是因为spacer不连续造成的.单块spacer更容易复现
回复 支持 反对

使用道具 举报

43#
 楼主| 发表于 2012-9-23 11:51 | 显示全部楼层
分配几片显存时,这几片显存不连续,不能保证被测区域被分配到高地址段

最后只有用终极办法了,分配多片32MB,并测试每一片带宽。
回复 支持 反对

使用道具 举报

44#
 楼主| 发表于 2012-9-23 14:12 | 显示全部楼层
本帖最后由 樟树 于 2012-9-23 14:13 编辑
flhssnake 发表于 2012-9-23 14:06
求GPCBenchMarkOCL可用的下载 或者你放到zol上面吧    现在都找不到地方可以下载了啊

最新版本,不用参数直接出结果,或者加上-step=16 控制测试块大小。解压后改名为bandwidth.71, 解压运行exe,缺dll在网上可以找到。

mooncoon花了一个周末,已经证实660Ti/550Ti在out of memory或者降到PCI-E之前有四分之一容量带宽下降了。
只是因为上一版的memcpy的输入数据被分配到了满带宽的段,因此看到的下降后幅度是一半而不是三分之一。用这一版应该可以看到降到三分之一。
mooncoon的660Ti测试结果

mooncoon 670/680都是掉到PCI-E之前一直坚挺在满带宽。我的GTX480和GT640是爆显存前满带宽。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

45#
 楼主| 发表于 2012-9-26 19:25 | 显示全部楼层
本帖最后由 樟树 于 2012-9-26 19:29 编辑

程序已经写完给mooncoon了

就是最基本的每次malloc ,测试 而已

这样可以测试出每一段的带宽。

他应该在测。

最后出来数据应该肯定是和以前几次一样,660Ti和550Ti这些有四分之一的容量带宽要下降,这次应该能测到三分之一。

只是其他卡也会有带宽下降到PCI-E的现象,虽然下降的容量会很小,但是怎么解读这个现象,会不会和非对称显存的四分之一下降混起来说就看个人解读了。

总之192 bit的1GB/2GB有四分之一容量带宽下降到三分之一这个是应该已经在mooncoon的测试数据里了。
回复 支持 反对

使用道具 举报

46#
 楼主| 发表于 2012-11-30 17:27 | 显示全部楼层
本帖最后由 樟树 于 2012-11-30 18:05 编辑
Vendicare 发表于 2012-9-27 14:09
你这典型的在调戏小月月。.cu文件运行在驱动层上,显存分配是系统随机分配的。除非直接调用ptx代码,否则 ...

显存分配和内存分配一样,有空就尽量往前分,而且一定是连续分配。虽然中间经过了驱动,不一定是线性增加的,连续增加分配量的时候趋势一定是向后不断走的。而不是随机的。

ptx代码和分配木有关系。或者说,
1.在这里没有使用kernel,而是直接通过api分配的。2. ptx中提供的alloca在最新版的ptx中仍然没有暴露,除非你用的内部版
3. 再退一步,假设你有alloca,alloca仍然只能根据要的尺寸返回一个地址,而不是根据地址进行分配。

pci-e 1x对于内存测试我相信影响很小。

而且已经知道只有三分之一带宽的那一段的地址在最后那段
只要一段一段的持续分配和测速,就能测出每一段的性能

2*2G+1*1G内存难道组成不了6G双通道?或者4G以上带宽降低?
--这个你应该打错了,是2*2G + 2* 1G. 这个装过机都知道是要在DIMM0和DIMM1各3G才能双通道,这是对称内存系统的情况。而如果是DIMM04G而DIMM1 2G,则在2G开始性能下降。

回复 支持 反对

使用道具 举报

47#
 楼主| 发表于 2012-11-30 17:32 | 显示全部楼层
本帖最后由 樟树 于 2012-11-30 17:45 编辑
inSeek 发表于 2012-9-26 21:34
不容易,又看完了...
“反正”、“我可不管” 这类词儿对于以逻辑性为首要的数学系学生来说太不应该了啊。 ...

对我来说的确是有已知的结果,但是手上手段我只有cuda一种。
我所坚持的只不过是非对称内存的基本性质:
非对称内存在一定容量后性能会下降
或者通过hash的手段将性能下降均分到更大容量上(据我所知没这么干)


于是设计了一个用来区分对称/非对称系统的实验,程序用的cuda,基本非对称系统性能也就这么测的。
相当正统的方法。

用正确的方法来做测试,结果当然和预想一样。
如果有其他的实验方法可以提出来。

而原文中测试峰值则当然是错误的方法。



回复 支持 反对

使用道具 举报

48#
 楼主| 发表于 2013-1-21 11:24 | 显示全部楼层
本帖最后由 樟树 于 2013-1-21 11:37 编辑
westlee 发表于 2013-1-19 09:40
请不要想当然。

4gx1+8gx1用ramdisk 吞掉8.3g以后的测试结果是没有明显的性能下降。

不像显卡驱动,操作系统是有页交换的。
你的这个测试仍然只是一个峰值带宽测试。
回复 支持 反对

使用道具 举报

49#
 楼主| 发表于 2013-1-21 11:25 | 显示全部楼层
本帖最后由 樟树 于 2013-1-21 11:39 编辑

http://www.intel.com/support/motherboards/desktop/sb/cs-011965.htm

intel关于多通道内存官方技术文档,2012年12月更新过的版本。参考flex mode一节

Flex mode
Flex mode results in both dual- and single- channel operation across the whole of DRAM memory. The figure below shows a flex mode configuration using two DIMMs. The operation is as follows:
  • The 2 GB DIMM in slot 1 and the lower 2 GB of the DIMM in the slot 2 operate together in dual-channel mode.
  • The remaining (upper) 2 GB of the DIMM in Slot 2 operates in single-channel mode.


非对称内存系统性能下降是基本性质,而不是想当然。

回复 支持 反对

使用道具 举报

50#
 楼主| 发表于 2015-1-30 11:00 | 显示全部楼层
本帖最后由 樟树 于 2015-1-30 11:44 编辑

660和970这两个本质上是一样的
970是相当于是屏蔽成了7组ROP(架构不同,只是为了方便说明,相当于7组),其中一组接双倍容量的存储器,七分之一的容量只有七分之一速度
660是3组存储器控制器,其中一组接双倍容量的存储器,三分之一的容量只有三分之一速度。不同是瓶颈从MC移到了ROP/L2,前七分之六按理也会受一点点影响。和660一样,只要把剩下的0.5GB当成附送的比PCI-E爆显存好的方案就行了。

为什么970影响这么差?
970宣传的规格是64RO,与实际规格不符。
而660一开始宣传资料里就开诚布公的明说设计就是这样的,而某些人还要试图洗地否定。


回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-5-6 06:32

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表