POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
12
返回列表 发新帖
楼主: gtx5
打印 上一主题 下一主题

AMD连发四款OpenCL加速计算开发工具

[复制链接]
21#
发表于 2011-6-14 21:24 | 只看该作者
本帖最后由 nom8393 于 2011-6-14 21:25 编辑
开普勒 发表于 2011-6-14 21:08
AMD的文档里鼓励开发人员尽量使用float4之类的矢量,因为可以优化在AMD GPU上的访存和充分利用ALU,而且对 ...

请问你是用Stream做什么的?我是搞通用高性能计算的,所以基本不用AMD的Stream,开发亲善度太差了。
回复 支持 反对

使用道具 举报

22#
发表于 2011-6-14 21:30 | 只看该作者
开普勒 发表于 2011-6-14 21:08
AMD的文档里鼓励开发人员尽量使用float4之类的矢量,因为可以优化在AMD GPU上的访存和充分利用ALU,而且对 ...

这个看的不是很明白了,为什么说尽量写矢量的话,是退步呢?
回复 支持 反对

使用道具 举报

23#
发表于 2011-6-14 21:42 | 只看该作者
回复 nom8393 的帖子

我现在的程序有这么一步还在瓶颈中:

给定一个很长的字符串(大概一万个字符的长度),然后给出很多个(大概一百万个)短字符串,每个短字符串的长度为30-100之间。现在我需要针对每一个短字符串,找出它是否与长字符串中的某一部分近似匹配,允许 editing distance 不超过 5.

希望高手支招~
回复 支持 反对

使用道具 举报

24#
发表于 2011-6-15 12:52 | 只看该作者
darkstorm 发表于 2011-6-15 12:41
回复 voidshatter 的帖子

在一个本来就是大规模线程级并行的程序中再加上显式的指令内并行这样就存在了wor ...

AMD目前的GPU基本单元都是4D或者4D+1D的,组合指令应该对VLIW架构的R700有好处。所以AMD才将几条简单指令进行拼接从而提高GPU利用的效率。而这种做法在NV的海量线程+小粒度指令的MIMD架构中是完全不适用的。
回复 支持 反对

使用道具 举报

25#
发表于 2011-6-15 15:54 | 只看该作者
darkstorm 发表于 2011-6-15 12:41
回复 voidshatter 的帖子

在一个本来就是大规模线程级并行的程序中再加上显式的指令内并行这样就存在了wor ...

对哦,你这么一说,我明白了。。平时写MATLAB或者R拼命的写成向量形式,就是为了去迎合SIMD,而GPGPU的好处本来是为了让编程的人只需要考虑每个像素需要干嘛?
回复 支持 反对

使用道具 举报

26#
发表于 2011-6-15 15:54 | 只看该作者
darkstorm 发表于 2011-6-15 12:46
回复 voidshatter 的帖子

GPU上做多模匹配有用AC或者AC-BM的,通常只有几k pattern。一百万量级的patter ...

不愧为行内人士,一看就猜到我在干嘛~多谢指路,我回头去研究一下
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-26 16:45

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表