|
这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51 ![]()
这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎一样。
1. CPU version是一个单线程程序,无论多少个核心只能用一个核心进行计算。
的确是单线程的
2. 整个程序75%的时间耗在MSVCRT80.dll中,25%的时间耗在主程序中
3. 超级可悲的是:MSVCRT80.dll中居然有97%的时间花在modf函数上,我就不信这个程序真的需要分别取小数部分和整数部分来做运算,文章中特地指出的sin/cos等GPU处理性能占优的超越函数只占了3%
你测的是计数还是cycle?我不认为SAR部分CPU和GPU代码有多大区别。modf或许是其它科学计算函数自己调用的。SAR计算大部分是sin/cos为主,你这个就别争了
4. 号称会写SSE intrinsic的高手,自己的代码统统用的是x87浮点,而且是还是双精度,你的GPU也是双精度浮点??
加乘两次就要算exp/sin的你优化给我看?!好吧,就当你sin/cos也写SSE版的,顶多也就4倍性能吧,再综合考虑内存带宽因素,最终程序能优化到单核上2倍提高已经很不错了,还秒杀Fermi呢,吹牛不是这样吹的 |
|