POPPUR爱换

标题: 说说各位战了很久的一些话题,比如IP,比如安卓,比如64位 [打印本页]

作者: welo000    时间: 2013-9-16 21:26
标题: 说说各位战了很久的一些话题,比如IP,比如安卓,比如64位
本帖最后由 welo000 于 2013-9-16 22:10 编辑

CPU不是只差0.1G么,怎么物理分数差近千分??难道GPU也上?


另外,无论IP5多么流畅,可上的网页还不是X86电脑上那个,怪不得不给开FLASH,完整的电脑模式浏览,双核肯定是要爆的,对吧。


我过手过三台IP5(一台有锁日版,一台行货,还捡了一台),你们确定没经历过不停开游戏和软件,在切换和开启的时候卡一下的情形?UI划来划去流畅有啥意义啊

和很多名牌的安卓旗舰对比,我发现安卓和IP在响应上安卓最大的差距是实体按键(菜单键返回键),也就是说,很多时候如果是按触摸屏上软件提供的各种功能图标,软件瞬间响应,但是如果是实体键,却会产生延迟,这就奇葩了,刚好,IP没这两个键,SO。。。。

另外一点,各位可以用图瑞2做下对比,对比苹果处理器和其他ARM处理器,你们会发现,图瑞2阉割的正好是苹果处理器一直在加强的,而那部分,在大数据处理的时候,最影响响应

关于64位,就我的知识面看,CPU支持64位最大的益处貌似是双精度的支持(单精度是32位,双精度是64位的,以上说的是浮点运算),那么,连I7上双精度都要捉瞎,ARM上了有啥用?-----不可否认,A15提升最大的就是浮点性能,这妥妥就是要上超算的节奏

另外,64位软件会相应比32位大,位数问题,无解,自然也就占用更大的运行内存,IP5S居然还是1G,可怜的果粉,妥妥被坑的节奏

IP5的外观是我最喜欢的。。。。。

更喜欢其文件传输速度,传毛片进手机真是飞快,安卓还是爬文件的时候,IP5已经在看了

PS:话说,我在这里看了半年T神和各位的表演,才发现原来不用赞助也能注册,专门去下了微信,我对自己都无语了

作者: xiaoguo2006    时间: 2013-9-16 22:48
:L 不觉明厉……
作者: 532    时间: 2013-9-16 23:13
流畅这个你就不懂了,果粉的脑袋里的生物钟是随着界面帧率速度动态变化的,比如界面60fps的时候他们的生物钟频率是a,帧率30fps的时候他们的生物钟频率是50%a,简单说就是等比增减,所以视神经跟大脑逻辑中枢一直的判断都是很“流畅”。

听不懂没关系,去看看《李献计历险记》即可
作者: ifu    时间: 2013-9-16 23:39
你以为32->64位就把寄存器变为64位?

http://www.arm.com/zh/products/p ... v8-architecture.php
A64 是一种支持 AArch64 执行状态的全新 32 位固定长度指令集。下面摘要说明了 A64 ISA 的特性。
基于 5 位寄存器说明符的简洁解码表
指令语义与 AArch32 中大致相同
31 个随时可供访问的通用 64 位寄存器
无模式 GP 寄存器组 - 改进的性能和能耗
程序计数器 (PC) 和堆栈指针 (SP) 非通用寄存器
可用于大多数指令的专用零寄存器
与 A32 的主要差异有:

支持 64 位操作数的新指令  大多数指令可具有 32 位或 64 位参数
地址假定为 64 位大小  P64 和 LLP64 是主要目标数据模型
条件指令远少于 AArch32  条件 {跳转、比较、选择}
无任意长度的加载/存储多重指令  增加了用于处理寄存器对的 LD/ST 'P'
A64 高级 SIMD 和标量浮点支持在语义上类似于 A32 支持;它们共享浮点/向量寄存器文件(V0 至 V31)。A64 提供了 3 项主要功能增强:

更多 128 位寄存器:32 x 128 位宽寄存器;可视为 64 位宽寄存器
高级 SIMD 支持 DP 浮点执行
高级 SIMD 支持完全 IEEE 754 执行;舍入模式、非规范化数字、NaN 处理
有一些针对 IEEE754-2008 的附加浮点指令:

MaxNum/MinNum 指令
使用 RoundTiesAway 的浮点到整数转换
A64 中的寄存器封装模型也不同于 A32:

所有向量寄存器均为 128 位宽,Vx[127:0]:

双精度标量浮点使用 Vx[63:0]
单精度标量浮点使用 Vx[31:0]
作者: huangpobu    时间: 2013-9-17 00:42
迁移到64位对应用程序的性能冲击是很大的,我说的不是浮点,是整数。

从x86转64的测试数据,供参考:

一些算术密集型的程序性能会增长,SPEC 06里的libquantum涨了30%多

一些喜欢调用小函数的程序会增长,h264ref涨了30%多

一些在循环内部变量多的程序会增长,hmmer涨了30%多

另外就是内存密集型的程序,性能会倒退,倒退十几二十几个百分点。

总体平均是性能增加7%上下
作者: welo000    时间: 2013-9-17 08:10
ifu 发表于 2013-9-16 23:39
你以为32->64位就把寄存器变为64位?

http://www.arm.com/zh/products/processors/instruction-set-arch ...

你复制了那么多,还不是我一句话的意思,双精度....话说,你明白啥叫双精度么
作者: welo000    时间: 2013-9-17 08:14
本帖最后由 welo000 于 2013-9-17 08:19 编辑
huangpobu 发表于 2013-9-17 00:42
迁移到64位对应用程序的性能冲击是很大的,我说的不是浮点,是整数。

从x86转64的测试数据,供参考:


指令字长增加相当于周期内发射数增加,且不增加预测负担,这种增长是数学的胜利,不需要你摆数据,小学生都能明白火车多了一倍的车节运输总量可以上去
但是,其中还存在吞吐量的问题,总线宽度不上去,l0 l1就那么多,又不设计内存控制器,单靠cpu自己处理,你以为liunx的内核中断调度表是神一般的存在么

作者: slice    时间: 2013-9-17 08:20
本帖最后由 slice 于 2013-9-17 08:24 编辑
welo000 发表于 2013-9-17 08:14
指令字长增加相当于周期内发射数增加,且不增加预测负担,这种增长是数学的胜利,不需要你摆数据,小学 ...

问题是多了一倍的车厢,本来跑120公里,变成了跑80公里。
不管怎么说,除了大内存能够带来的提升外,64位所能取得的大部分性能提升,其实在32位下也可以实现。

对于1G内存的Iphone来说,其实Android上64位更迫切,呵呵。

作者: huangpobu    时间: 2013-9-17 09:57
本帖最后由 huangpobu 于 2013-9-17 10:03 编辑
welo000 发表于 2013-9-17 08:14
指令字长增加相当于周期内发射数增加,且不增加预测负担,这种增长是数学的胜利,不需要你摆数据,小学 ...


你根本没明白我的意思。

所谓指令字长增加相当于周期内发射数增加是扯淡,libquantum测出来前端stall增加了40%,但性能最后反超32位 30%多。code density上去了不代表实际发射数就会等价上升。

为什么大量使用函数指针调函数的程序会在64位下跑的更快?这跟指令字长根本无关。跟ISA约定的函数调用方式有关。

你若不是学微架构的,我也就不要求你明白这么多,架构师评估的方式不是看32转64拍脑袋就决定了。如果你是学微架构的,只能为你的老师感到遗憾,他根本就没有教会你一个架构设计评估的基本思维方式是什么。
作者: huangpobu    时间: 2013-9-17 10:06
争论32 vs 64之前可以先看看这篇文章。

这是4400+ 在SPECint 2006上的实测数据和分析。

做微架构的人是怎么思考的,我认为这篇文章体现的很清楚:定量为上,定性为下。
作者: welo000    时间: 2013-9-17 10:22
huangpobu 发表于 2013-9-17 09:57
你根本没明白我的意思。

所谓指令字长增加相当于周期内发射数增加是扯淡,libquantum测出来前端stal ...

你扯得再多,在x86 for win上都经历过,效率提升在哪里,更强的分支预测,更高的总线下都搞不定,你以为苹果是火星科技?
作者: asdf567    时间: 2013-9-17 10:22
煎饼果子

这个词完美地呈现了果子每次做SoC都是摊了一张大煎饼

天津人民智慧多
作者: huangpobu    时间: 2013-9-17 10:25
welo000 发表于 2013-9-17 10:22
你扯得再多,在x86 for win上都经历过,效率提升在哪里,更强的分支预测,更高的总线下都搞不定,你以为苹 ...

我先不回答你的问题。

我就问你一句,你学什么的?

如果不是干这行的,我上面对你的指责全部撤销,当我没说,我就换一个你能理解的方式说。

如果你是干这行的,应该很明白做架构评估的准则是什么:量化优先,量化分析出来之前,一切定性都是猜测。结果你在7楼表现的是完全相反的思维方式,以定性抢白定量,如果继续这样下去,你的职业生涯会很危险。
作者: largewc    时间: 2013-9-17 11:05
本帖最后由 largewc 于 2013-9-17 11:10 编辑

arm变成64bit比x86变成64bit意义更大一些,还是那个,arm是定长指令,64bit以后,才能首次让操作数用满32bit,这对于原来的32bit程序来说,代码密度变大了,效率也高了。

32bit的x86,实际cpu内部的定长应该是介于32-64之间的,可以用满32bit。



这在浮点赋值上意义更大,之前的32bit,那是不可能直接一条指令赋值float的。


arm因为这个,性能就可能可以提高10%。
作者: ifu    时间: 2013-9-17 13:49
本帖最后由 ifu 于 2013-9-17 13:52 编辑
welo000 发表于 2013-9-17 08:10
你复制了那么多,还不是我一句话的意思,双精度....话说,你明白啥叫双精度么

扯蛋,啥叫modern instruction set,2x GPRs,2x FPRs?和双精度有毛关系

作者: welo000    时间: 2013-9-17 15:54
ifu 发表于 2013-9-17 13:49
扯蛋,啥叫modern instruction set,2x GPRs,2x FPRs?和双精度有毛关系

麻烦你说下一你对这几个英文的理解
作者: ifu    时间: 2013-9-17 16:59
welo000 发表于 2013-9-17 15:54
麻烦你说下一你对这几个英文的理解

拿几本计算机系统结构、编译原理之类的书读读你就知道了
作者: RArchitect    时间: 2013-9-17 18:33
看17楼的发言,我明白了为什么说“三天不打,上房揭瓦”是真理。

Hold住,虽然说看见不懂装懂的装逼货色很火大,但是不能吵架。。。。
作者: itany    时间: 2013-9-17 21:15
welo000 发表于 2013-9-17 15:54
麻烦你说下一你对这几个英文的理解

通用寄存器和浮点寄存器都不知道干啥的么
前者是配个ALU存整数的,后者一般是配合SIMD单元存矢量数据的
作者: welo000    时间: 2013-9-17 21:56
ifu 发表于 2013-9-17 16:59
拿几本计算机系统结构、编译原理之类的书读读你就知道了

问题是我感觉你不知道

作者: welo000    时间: 2013-9-17 22:00
本帖最后由 welo000 于 2013-9-17 22:11 编辑
itany 发表于 2013-9-17 21:15
通用寄存器和浮点寄存器都不知道干啥的么
前者是配个ALU存整数的,后者一般是配合SIMD单元存矢量数据的

这个哪怕是个小学生用上谷歌翻译都能弄明白,可问题是,双精度的浮点运算需要什么?

很明显,某人自己发的ARM网站上的东西都说明了:双精度浮点运算的必须的64位寄存器,还居然问我和双精度有什么关系,自己打自己脸?

连通用寄存器的缩写都能写错(有这么直接用开头字母的缩写加2X的么?),还问别人。。。呵呵

作者: reftin2    时间: 2013-9-17 22:00
主要是总线宽度提高一倍,真的64位计算台机都用不上,手机上估计也没啥用。
作者: welo000    时间: 2013-9-17 22:07
reftin2 发表于 2013-9-17 22:00
主要是总线宽度提高一倍,真的64位计算台机都用不上,手机上估计也没啥用。

我是判断就是ARM剑指超算市场,超算市场主要应用就是双精度浮点,而服务器市场主要指望整数运算,从测试上A15浮点明显的大规模提升就可以知道了,消费级根本用上不这么高性能的浮点,有一点要指出的是,办公软件用的指令,比如OFFICE是整数运算
作者: RArchitect    时间: 2013-9-17 23:02
reftin2 发表于 2013-9-17 22:00
主要是总线宽度提高一倍,真的64位计算台机都用不上,手机上估计也没啥用。

为什么说台式机用不上?

64位计算牵涉到的不仅是总线宽度,还缓解了x86通用寄存器不够,调用约定,系统限制2GB内存等问题。

2003年前后的时候,Intel还在抱着32位P4不放,媒体上跟AMD打架,说用不着64位,结果当时Epic Games的开发人员都按耐不住了,跳出来在论坛上大骂Intel,当时的帖子标题好像是we need 64bit now
作者: RArchitect    时间: 2013-9-17 23:08
welo000 发表于 2013-9-17 22:07
我是判断就是ARM剑指超算市场,超算市场主要应用就是双精度浮点,而服务器市场主要指望整数运算,从测试上 ...

ARM Cortex-A15的浮点根本不算快,超算根本够不着。

消费级不用高性能浮点是错误的,你做了开发就知道。本人就被浮点性能不够坑过一次。特别是图像处理这块,不是每个功能都有ASIC加速的,有的轻量级操作写SIMD就可以了,复制到GPU显存上去再操作反而浪费复制时间。
作者: okbeta    时间: 2013-9-17 23:10
RArchitect 发表于 2013-9-17 23:02
为什么说台式机用不上?

64位计算牵涉到的不仅是总线宽度,还缓解了x86通用寄存器不够,调用约定,系统 ...

我有点好奇,你几岁的?
作者: RArchitect    时间: 2013-9-17 23:24
okbeta 发表于 2013-9-17 23:10
我有点好奇,你几岁的?

我很年轻~~~

年龄不算啥,某CPU研发团队起步的时候平均年龄不到30呢,里面一堆少年天才。具体是哪支我就不说了,嘿嘿。
作者: RArchitect    时间: 2013-9-17 23:42
本帖最后由 RArchitect 于 2013-9-17 23:50 编辑

关于ISA迁移这个问题,我谈一下我的看法。

移动设备走64位是对的,这个迁移只是时间早晚的问题。我之前在论坛就说过,移动计算这块某种程度上是在重复桌面的发展道路(CPU结构,etc.),同时又因为移动计算极度注重功耗问题,所以这个架构里面ASIC也占据了举足轻重的位置,因此又与桌面的体系结构有所不同。

ISA迁移,这个东西本质上并不是ARM想做的,也不是苹果想做的,ISA是整个软件系统与整个硬件系统的接口层,我还没有见过有哪一次ISA大改是主动在ISA层面发起的,而不是因为软件或者硬件需要而改动的。ISA迁移背后的推动肯定是来自于软硬件配合的需要,不是想迁就迁的。

改到64位以后,性能受到冲击的绝不仅是浮点,整数的影响也很大,具体的量化分析我在上面贴了以前x86-64的SPECint 2006测试数据和原始论文,大家可以看一下再发言。人家的架构团队想的远多了,从前端stall是否会造成冲击到memory footprint加大多少,一定是做过量化分析才迁移的,具体能做到怎么样,看以后的测试数据吧。我前面就强调了,微架构这种东西,量化为上,定性为下,没有量化分析之前,定性结果如何只是猜测,架构设计上有很多案例是反直觉的,你以为性能提升多的,测试一出来,发现可能反而倒退了也说不定。

很多人担心5S的内存问题。5S是否只有1G内存,目前我没有看到任何靠谱的情报出来,当年5加到1G内存的时候也是不声不响,我把5的发布会视频下载来从头看到了尾,没有提一句内存容量。所以现在就急着指责苹果傻逼,着实太早了。
作者: reftin2    时间: 2013-9-18 00:02
RArchitect 发表于 2013-9-17 23:02
为什么说台式机用不上?

64位计算牵涉到的不仅是总线宽度,还缓解了x86通用寄存器不够,调用约定,系统 ...

回首历史,只能证明intel说的是对的,amd是大忽悠。
现在真正需要64位的应用也不多。仅仅解决地址空间不够的问题32位也一样可以,因为一般通用cpu的地址是用段表、页表、虚地址几部分加出来的,实际32位cpu的地址线也可以超过32位(p4就是这样的),只要单个地址空间不超过4G,32位指令集都可以支持。现在x64的设计,各种的丑陋,intel也是被牵着鼻子走的。
作者: itany    时间: 2013-9-18 00:27
welo000 发表于 2013-9-17 22:00
这个哪怕是个小学生用上谷歌翻译都能弄明白,可问题是,双精度的浮点运算需要什么?

很明显,某人自己发 ...

Intel双精度浮点用SSE2就成了,和32位还是64位有毛关系
Arm也有128位SIMD
作者: ifu    时间: 2013-9-18 08:05
welo000 发表于 2013-9-17 21:56
问题是我感觉你不知道

你继续感觉。
作者: ifu    时间: 2013-9-18 08:14
本帖最后由 ifu 于 2013-9-18 08:16 编辑
itany 发表于 2013-9-17 21:15
通用寄存器和浮点寄存器都不知道干啥的么
前者是配个ALU存整数的,后者一般是配合SIMD单元存矢量数据的

对他来说还是32-64直观,给他扯寄存器数目翻番之类也是白搭,他根本不明白这咚咚意义
作者: welo000    时间: 2013-9-18 08:26
RArchitect 发表于 2013-9-17 23:08
ARM Cortex-A15的浮点根本不算快,超算根本够不着。

消费级不用高性能浮点是错误的,你做了开发就知道 ...

和A15的整数提升比就是多
你居然还想用来做开发,我只能呵呵
百度党就是百度党


作者: welo000    时间: 2013-9-18 08:31
本帖最后由 welo000 于 2013-9-18 08:38 编辑
itany 发表于 2013-9-18 00:27
Intel双精度浮点用SSE2就成了,和32位还是64位有毛关系
Arm也有128位SIMD

64位指令和双精度别混淆了,至于32位算64位的,看看消费级显卡算双精度的损失就可以知道了
SIMD的128位你可以看看LS某人给出的资料,A15上注明更多 128 位寄存器:32 x 128 位宽寄存器;可视为 64 位宽寄存器
A8和A9如果要做64位计算,不但要斩等长指令,还要相当于把寄存器切半处理,那实现性能,比显卡转行双精度的损耗还大
作者: welo000    时间: 2013-9-18 08:32
本帖最后由 welo000 于 2013-9-18 08:38 编辑
ifu 发表于 2013-9-18 08:05
你继续感觉。

你有满地打滚的时间,都可以回复我几次这个问题了,不就是在怕自己的理解也会被我捉住漏洞么,原来你这么没信心啊

作者: slice    时间: 2013-9-18 08:44
本帖最后由 slice 于 2013-9-18 09:03 编辑
reftin2 发表于 2013-9-18 00:02
回首历史,只能证明intel说的是对的,amd是大忽悠。
现在真正需要64位的应用也不多。仅仅解决地址空间不 ...

系统可以PAE支持超过4G的内存,但32位应用要如何去使用超过4G的内存?
效率和复杂度。
而64位程序是不需要考虑这个问题。
IP5只有1G内存,貌似是某拆机确认的。
我只能说1G内存,要提升性能,有很多手段,最终不过是能耗比,用了多少晶体管达到什么效率。支持64位同样是有能耗方面的代价的,如果大部分软件并不能明显享受到提升的话。
64位更多是铺垫吧,因为迟早都要升级到的,早做准备也没啥不好,当然你要说改变什么用户体验,呵呵。
这是最无聊了,A5到A6可以Double,A7或许没上64位,A7或许也可能性能Double,不过如此而已。
64位目前对于APP并不能带来直接的用户体验的改变,只是未来的铺垫。
性能嘛,到时候看吧,就算APP为64位优化,性能提升了吧,不过1G内存能玩出啥花样。

ARM自身还是比较理性,A57一开始是针对Server。
但我反而觉得,ARM应该更快把64弄上A12/A15之类产品线。
因为Android马上就爆内存了,不是这个原因,Note 3还不得4G内存。


水果那么抠门,不知道多久才会给你大内存,IPAD再过两代说不定都不会上4G。
不过水果创新乏力的时候,也不外乎,为了卖点和噱头。
例如突然上64位,例如mini上高清屏,类似花样玩多了玩不出啥花样后。
某天把内存拿来做文章配合64位来个世界第一8G内存也不是不可能,再一次改变世界。


作者: RArchitect    时间: 2013-9-18 10:29
welo000 发表于 2013-9-18 08:26
和A15的整数提升比就是多
你居然还想用来做开发,我只能呵呵
百度党就是百度党

我说的做开发是指开发运行在嵌入式设备上的程序。

论起微架构我的知识水平比你高过几个数量级,劝你不要故意惹毛我或者在我面前高谈阔论什么微架构的话题,否则继续当面开帖抽。顶楼第一帖就看出来你根本不是做这行的,因此才有这种定性高于定量的思维方式,外行跑到别人专业领域里最好言辞客气一些,动起真格儿来你会死的很难看。

作者: RArchitect    时间: 2013-9-18 10:45
reftin2 发表于 2013-9-18 00:02
回首历史,只能证明intel说的是对的,amd是大忽悠。
现在真正需要64位的应用也不多。仅仅解决地址空间不 ...

相反。

我接触到的所有人(特指工作在这个领域内的)都认为Intel在64位问题上反应迟缓,被AMD反攻了一次,64位的事情已经写入包括量化研究方法,硬件软件接口在内的很多经典教科书。

需要64位应用不多?我倒是看见Epic Games的人在2003年就怒骂Intel不搞x86-64影响了自己的开发,底下一堆叫好。

你说的PAE在P6架构上就有了,这东西我仅了解有存在,没读过相关paper,不作评论。我倒是很好奇为什么转64位的过程中绝大多数外行都只盯着地址空间,似乎转64位带来的变化仅在地址空间上存在,而完全不关注ISA的其他方面,你说x64的设计丑陋,可否介绍一下x64与x86的指令编码?
作者: MYM    时间: 2013-9-18 10:55
楼上马甲海大作战啊
作者: RArchitect    时间: 2013-9-18 11:09
welo000 发表于 2013-9-18 08:31
64位指令和双精度别混淆了,至于32位算64位的,看看消费级显卡算双精度的损失就可以知道了
SIMD的128位你 ...

我说句公道话。

这坛子上有的人很难得,作为非专业的人能理解到SIMD寄存器切分已经是很了不起的事情,但是我想一而再再而三地提醒一下,微架构虽然成熟,但说复杂也很复杂,以我的眼光看,很多人对技术概念都是一知半解(同时尾巴翘的老高),引导好了说不定是个好社区,坏了可能就变成喷子乐园。
作者: itany    时间: 2013-9-18 21:11
本帖最后由 itany 于 2013-9-18 21:11 编辑
welo000 发表于 2013-9-18 08:31
64位指令和双精度别混淆了,至于32位算64位的,看看消费级显卡算双精度的损失就可以知道了
SIMD的128位你 ...

消费级显卡那是消费级显卡,损失到1/6还是1/8和x86没关系,好吧
至少Intel架构下128位的浮点寄存器能拆分成两个64位的,也可以拆分成4个。当然这是指令集及其实现决定的。但是我想水果家也不至于脑残让128位的SIMD只支持两个32位单精度浮点或者整数吧

作者: itany    时间: 2013-9-18 21:23
RArchitect 发表于 2013-9-18 10:45
相反。

我接触到的所有人(特指工作在这个领域内的)都认为Intel在64位问题上反应迟缓,被AMD反攻了一 ...

Epic这帮货嫌Intel不好可以做AMD64的引擎啊,关键是这帮货啥时候才真正出了64bit only的引擎呢
当年Athlon 64也没法保证64位应用一定快于32位的;Core 2也一样,在64位下边宏指令融合都做不了。

AMD那边我不太清楚,但是Intel这边一直到nehalem才能保证64位相对32位没有额外的限制。
我只是业余爱好者,但是我觉得从x86到x64的过渡并不是一蹴而就的;首先还是对大内存需求的应用先过渡;之后才是一般普罗大众的应用。现在浏览器多数还是32位的呢

作者: RArchitect    时间: 2013-9-18 21:30
itany 发表于 2013-9-18 21:23
Epic这帮货嫌Intel不好可以做AMD64的引擎啊,关键是这帮货啥时候才真正出了64bit only的引擎呢
当年Athl ...

根据那个帖子,他们当时是考虑过打算强制64bit的,后来我没关注,就不太清楚了。

64位确实不能保证快于32位,SPEC测出来就有些子项目倒退十几二十个百分点,综合来看加速7%,这是2006年AMD的人参与发表的数据,从这一点数据上能说的也就是这么多了。


作者: welo000    时间: 2013-9-18 23:35
RArchitect 发表于 2013-9-18 10:29
我说的做开发是指开发运行在嵌入式设备上的程序。

论起微架构我的知识水平比你高过几个数量级,劝你不 ...

这种自卖自夸的奇葩。。。。。
作者: welo000    时间: 2013-9-18 23:46
itany 发表于 2013-9-18 21:11
消费级显卡那是消费级显卡,损失到1/6还是1/8和x86没关系,好吧
至少Intel架构下128位的浮点寄存器能拆分 ...

X86无论是CPU还是显卡,一直到现在,在做浮点性能测试的时候,成绩都以单精度做单位,你感受一下


作者: RArchitect    时间: 2013-9-18 23:59
welo000 发表于 2013-9-18 23:35
这种自卖自夸的奇葩。。。。。

我还是那个问题,你是不是搞微架构的?

你躲这个问题躲了几次?是就一个字,不是就两个字。有这么难答?
作者: itany    时间: 2013-9-19 00:03
welo000 发表于 2013-9-18 23:46
X86无论是CPU还是显卡,一直到现在,在做浮点性能测试的时候,成绩都以单精度做单位,你感受一下

搞笑啊,SPEC fp里边有几个是单精度,有几个是双精度的?
没有双精度搞屁的科学/工程计算??
作者: RArchitect    时间: 2013-9-19 00:05
welo000 发表于 2013-9-18 23:46
X86无论是CPU还是显卡,一直到现在,在做浮点性能测试的时候,成绩都以单精度做单位,你感受一下

x86显卡???!!!

暂且认为你是笔误。所谓都以SP性能做单位是纯属扯淡,得出这种印象说明你只看网媒的非专业测试,从不看高质量的paper.

体系结构的顶会是哪几个知道么?
作者: itany    时间: 2013-9-19 00:08
RArchitect 发表于 2013-9-19 00:05
x86显卡???!!!

暂且认为你是笔误。所谓都以SP性能做单位是纯属扯淡,得出这种印象说明你只看网媒 ...

说的是Xeon Phi吧
作者: RArchitect    时间: 2013-9-19 00:19
itany 发表于 2013-9-19 00:08
说的是Xeon Phi吧

我几个月前刚好写过Phi的文章。

它的架构借鉴了GPGPU的一些长处,但本质上它不是GPU。
作者: welo000    时间: 2013-9-19 10:34
itany 发表于 2013-9-19 00:03
搞笑啊,SPEC fp里边有几个是单精度,有几个是双精度的?
没有双精度搞屁的科学/工程计算??

只有专业显卡支持双精度,消费级全是单精度,就算可以软件开启,但是速度不足以承受庞大的计算量,CPU同理,上安腾堆核吧

作者: itany    时间: 2013-9-19 11:04
welo000 发表于 2013-9-19 10:34
只有专业显卡支持双精度,消费级全是单精度,就算可以软件开启,但是速度不足以承受庞大的计算量,CPU同理 ...

一般x残的都会言多必失的,果然
作者: itany    时间: 2013-9-19 11:04
RArchitect 发表于 2013-9-19 00:19
我几个月前刚好写过Phi的文章。

它的架构借鉴了GPGPU的一些长处,但本质上它不是GPU。

请问学术期刊还是大众期刊?
求标题,最好有个门
作者: RArchitect    时间: 2013-9-19 12:47
welo000 发表于 2013-9-19 10:34
只有专业显卡支持双精度,消费级全是单精度,就算可以软件开启,但是速度不足以承受庞大的计算量,CPU同理 ...

看来不仅是非专业的,这水平在非专业的爱好者里面也排不上号啊。

建议同楼上,言多必失,不懂的就少发言,省得出这种洋相。
作者: RArchitect    时间: 2013-9-19 12:48
itany 发表于 2013-9-19 11:04
请问学术期刊还是大众期刊?
求标题,最好有个门

现在在外面呢,回去PM你
作者: welo000    时间: 2013-9-19 12:59
RArchitect 发表于 2013-9-19 00:05
x86显卡???!!!

暂且认为你是笔误。所谓都以SP性能做单位是纯属扯淡,得出这种印象说明你只看网媒 ...

你也就剩抠字眼了

作者: welo000    时间: 2013-9-19 13:01
本帖最后由 welo000 于 2013-9-19 13:41 编辑
itany 发表于 2013-9-19 11:04
一般x残的都会言多必失的,果然

一般无话可说的就会开始骂人

想到用那些纯粹就是为了玩游戏玩跑分的硬件做工程计算,你的单位到底有多穷啊?安腾是贵了点,至强也买不起?买了还不插几块专业加速卡上去?

至强是消费级?还是你打算打报告上去说要买一堆酷睿I7组服务器?要不要来个256路的?

顺便,我只知道工业领域里大部分用单精度,你这用工程计算到底是什么神物,要用到精确度这么高的计算

作者: RArchitect    时间: 2013-9-19 22:00
本帖最后由 RArchitect 于 2013-9-19 22:00 编辑

只有专业显卡支持双精度,消费级全是单精度,就算可以软件开启,但是速度不足以承受庞大的计算量,CPU同理,上安腾堆核吧

这是你51楼的言论。我再引一遍。

你是真不懂还是假不懂?卖了这么大一个破绽还好意思在这儿扯淡?我要是你,早就羞愤销号走人了。
作者: welo000    时间: 2013-9-19 22:09
RArchitect 发表于 2013-9-19 22:00
这是你51楼的言论。我再引一遍。

你是真不懂还是假不懂?卖了这么大一个破绽还好意思在这儿扯淡?我 ...

GTX780的斩没斩你自己知道

作者: f0f0f0    时间: 2013-9-19 22:14
RArchitect 发表于 2013-9-19 22:00
这是你51楼的言论。我再引一遍。

你是真不懂还是假不懂?卖了这么大一个破绽还好意思在这儿扯淡?我 ...

跑个题,请教一下有什么看法?
http://www.chip~hell.com/forum.php?mod=redirect&goto=findpost&ptid=860203&pid=19627285
http://www.chip~hell.com/forum.php?mod=redirect&goto=findpost&ptid=860203&pid=19628036
http://www.chip~hell.com/forum.php?mod=redirect&goto=findpost&ptid=860203&pid=19632409
链接要去掉~
作者: RArchitect    时间: 2013-9-19 22:38
welo000 发表于 2013-9-19 22:09
GTX780的斩没斩你自己知道

不管是Fermi , Kepler,哪怕拿普通笔记本GPU跑过CUDA(2.0以上版本)的都知道它硬件【支持】双精度,只不过不是1/2速度。

【只有专业显卡支持双精度,消费级全是单精度】这句话直接把白的抹成了黑的,任你怎么洗都洗不回去,后面还跟着一句【就算可以软件开启,但是速度不足以承受庞大的计算量,CPU同理】,差点儿吓掉我下巴,若是没有这句你还可以狡辩一下说“支持”是1/2 SP性能的支持,结果一接上这句全暴露了,你TM还以为GPU里面的DP是软件模拟的DP?

现在又想退回去?门都没有。

57楼又暗示工程计算领域极少用DP,旧洞没补上又出新的,得无知到什么程度才好意思大放阙词?William Kahan就是受到学生在单精度数值模拟时遇到的结果不一致问题而在IEEE 754里面倡导一系列针对性改进,包括DP。现在谁不知道数值模拟领域DP是必不可少的?别说DP精度太高,有时候DP的精度都远远不够,一些专门的工程领域有自己的超长浮点数,精度还远高于DP。

非要我出手狠抽你几下才知道收敛是不是?现在满意了。
作者: RArchitect    时间: 2013-9-19 22:49
welo000 发表于 2013-9-19 22:09
GTX780的斩没斩你自己知道

William Kahan和IEEE 754的这段故事你不用google不用百度,网上根本没有,包括William Kahan本人挂在网上的访谈里面也没有提到。

这段故事出自一本经典教科书删节下来放到配套光盘里面的一个附属章节,你不花时间深究FP这个领域的来龙去脉根本不会知道有这么个东西,外行和内行的差距就是这样明显。有的素养是百度根本装不出来。

一般对于喜欢arch的人,我都是抱很欢迎的态度,唯独不懂装懂爱好装逼的,我会上去抽脸。我前面对你算是一再忍让没有直接出言点你软肋,望你日后收敛,多读书少装逼,好自为之。
作者: RArchitect    时间: 2013-9-19 22:52
f0f0f0 发表于 2013-9-19 22:14
跑个题,请教一下有什么看法?
http://www.chip~hell.com/forum.php?mod=redirect&goto=findpost&ptid= ...

昨晚PRAM也在问我这个,我的态度是:

1. 初步测试结果,A7很优秀,至于对这个芯片下一个清清楚楚明白明白的定论(比如清晰到P4或者Core的程度),几乎不可能。原因如下:
作者: RArchitect    时间: 2013-9-19 23:03
f0f0f0 发表于 2013-9-19 22:14
跑个题,请教一下有什么看法?
http://www.chip~hell.com/forum.php?mod=redirect&goto=findpost&ptid= ...

我在写一个长帖,单独开贴说。
作者: f0f0f0    时间: 2013-9-19 23:30
RArchitect 发表于 2013-9-19 22:52
昨晚PRAM也在问我这个,我的态度是:

1. 初步测试结果,A7很优秀,至于对这个芯片下一个清清楚楚明白明 ...

坐等发帖
作者: welo000    时间: 2013-9-19 23:45
本帖最后由 welo000 于 2013-9-20 00:30 编辑
RArchitect 发表于 2013-9-19 22:49
William Kahan和IEEE 754的这段故事你不用google不用百度,网上根本没有,包括William Kahan本人挂在网上 ...

单精度精度不足会出现误差就连普通游戏玩家都知道,把这种附录小故事当宝,你也就这样了


CUDA跑双精度有1/2这么高的是哪张显卡啊,你穷到连张高端显卡都买不起还自卖自夸。
一大堆G92核心显卡连跑双精度都不支持,GTX480跑出来的甚至是1/8,TITAN的最高1/3,到780双精度性能比TITAN差5倍,基本上算是砍了双精度了,而价格相差3200元.
目前也就TITAN勉强算是完全支持双精度的游戏卡,就算这样,在好几个驱动版本更新里,都出现了双精度不可选的情况

你这种就是看着能跑双精度就以为是支持双精度,你以为这是坑我啊,你老师都被你坑惨了,那个1/8就是用单精度搭出来的,游戏卡限制双精度都是旧闻中的旧闻了,Tesla 2050 以上才能达到单精度性能的一半

官方报告声明游戏卡双精度衰减度就是1/8,想要1/2的请买专业卡。
这叫市场策略,要不专业显卡卖给谁---你告诉我,老黄会蠢成这样么?会这样蠢就不会在TITAN后把780的双精度砍成残废(实验室打报告要买TITAN也有那么一群,所谓的便宜量又足)

你不是信评测数据么,这些数据满大街都是

作者: RArchitect    时间: 2013-9-20 00:32
welo000 发表于 2013-9-19 23:45
单精度精度不足会出现误差就连普通游戏玩家都知道,把这种附录小故事当宝,你也就这样了

看看你的表演:

顺便,我只知道工业领域里大部分用单精度,你这用工程计算到底是什么神物,要用到精确度这么高的计算

被我指出数值模拟DP根本不能缺的问题之后,态度一百八十度转弯:

单精度精度不足会出现误差就连普通游戏玩家都知道

一大堆G92核心显卡连跑双精度都不支持,GTX480跑出来的甚至是1/8,TITAN的最高1/3,到780双精度性能比TITAN差5倍,基本上算是砍了双精度了,而价格相差3200元.
目前也就TITAN勉强算是完全支持双精度的游戏卡,就算这样,在好几个驱动版本更新里,都出现了双精度不可选的情况

你这种就是看着能跑双精度就以为是支持双精度,你以为这是坑我啊,你老师都被你坑惨了,那个1/8就是用单精度搭出来的,游戏卡限制双精度都是旧闻中的旧闻了,Tesla 2050 以上才能达到单精度性能的一半

官方报告声明游戏卡双精度衰减度就是1/8,想要1/2的请买专业卡------费米核心。
这叫市场策略,要不专业显卡卖给谁---你告诉我,老黄会蠢成这样么?会这样蠢就不会在TITAN后把780的双精度砍成残废(实验室打报告要买TITAN也有那么一群,所谓的便宜量又足)

你不是信评测数据么,这些数据满大街都是

这里一大段,我早有预料,说的很明白:

不管是Fermi , Kepler,哪怕拿普通笔记本GPU跑过CUDA(2.0以上版本)的都知道它硬件【支持】双精度,只不过不是1/2速度。

【只有专业显卡支持双精度,消费级全是单精度】这句话直接把白的抹成了黑的,任你怎么洗都洗不回去,后面还跟着一句【就算可以软件开启,但是速度不足以承受庞大的计算量,CPU同理】,差点儿吓掉我下巴,若是没有这句你还可以狡辩一下说“支持”是1/2 SP性能的支持,结果一接上这句全暴露了,你TM还以为GPU里面的DP是软件模拟的DP?

现在又想退回去?门都没有。

作者: welo000    时间: 2013-9-20 00:41
本帖最后由 welo000 于 2013-9-20 00:45 编辑
RArchitect 发表于 2013-9-20 00:32
看看你的表演:

精神胜利法来了

抠字眼,只能显示你确实不了解这方面的问题

有时间死撑,不如先存钱买张Tesla K20X,JS卖的时候可是标注中科院专用哦,不贵,最便宜的1W1,推荐2W7的,

不配张Tesla K20X,你还好意思说你是做工程计算的?马路摆摊的工程计算吧
作者: asdf567    时间: 2013-9-20 00:45
楼上的你别先不如

我是来看你的干货的
作者: welo000    时间: 2013-9-20 00:46
asdf567 发表于 2013-9-20 00:45
楼上的你别先不如

我是来看你的干货的

干货就是我有钱买K20X,你只能YY游戏卡支持双精度,便宜货也能玩CUDA
作者: asdf567    时间: 2013-9-20 00:48
本帖最后由 asdf567 于 2013-9-20 00:48 编辑
welo000 发表于 2013-9-20 00:46
干货就是我有钱买K20X,你只能YY游戏卡支持双精度,便宜货也能玩CUDA

开始疯狗乱咬了,逮谁咬谁,管理员哪儿去了
作者: asdf567    时间: 2013-9-20 00:48
welo000 发表于 2013-9-20 00:46
干货就是我有钱买K20X,你只能YY游戏卡支持双精度,便宜货也能玩CUDA

开始疯狗乱咬了,管理员哪儿去了
作者: RArchitect    时间: 2013-9-20 00:54
welo000 发表于 2013-9-20 00:41
精神胜利法来了

有时间死撑,不如先存钱买张Tesla K20X,JS卖的时候可是标注中科院专用哦,不贵,最便 ...

我继续把前后的引到一起。

这是你前面的发言

我是判断就是ARM剑指超算市场,超算市场主要应用就是双精度浮点


Itany说

没有双精度搞个屁的科学/工程计算

然后你怎么回的?

顺便,我只知道工业领域里大部分用单精度,你这用工程计算到底是什么神物,要用到精确度这么高的计算


一面说超算要双精度,另一面说工程计算不用单精度。哈哈哈哈哈哈。。。。。。。


作者: welo000    时间: 2013-9-20 00:57
RArchitect 发表于 2013-9-20 00:54
我继续把前后的引到一起。

这是你前面的发言

你到底知不知道超算一般是承接什么任务啊?

作者: RArchitect    时间: 2013-9-20 00:58
本帖最后由 RArchitect 于 2013-9-20 01:01 编辑
welo000 发表于 2013-9-20 00:46
干货就是我有钱买K20X,你只能YY游戏卡支持双精度,便宜货也能玩CUDA

再来看看你之前怎么说的:

64位指令和双精度别混淆了,至于32位算64位的,看看消费级显卡算双精度的损失就可以知道了

你这里暗示消费级卡算双精度的损失原因在于32位算64位。

到了66楼我截图的部分就调换了另一个思路,转成了暗示消费级卡双精度损失在于故意把同一种架构施加限制,以让高端计算卡有市场

呵呵,两天就换了两个说法,百度敢百度全一点儿吗?
作者: welo000    时间: 2013-9-20 00:59
asdf567 发表于 2013-9-20 00:48
开始疯狗乱咬了,管理员哪儿去了

相对于人身攻击的你,我想管理员应该先处理你

作者: RArchitect    时间: 2013-9-20 00:59
welo000 发表于 2013-9-19 23:45
单精度精度不足会出现误差就连普通游戏玩家都知道,把这种附录小故事当宝,你也就这样了

我先问你一个问题。

GTX 480硬件本身不阉割的话支不支持DP ? 是不是软件模拟?

是就一个字,不是就两个字,痛快点儿。
作者: welo000    时间: 2013-9-20 01:01
RArchitect 发表于 2013-9-20 00:58
再来看看你之前怎么说的:

你确定你知道费米之前的双精度全是用单精度搭出来的?

另外,如果我不说,你肯定会1/2SP到世界末日---有时间翻翻淫威大的官方文档,人家不仅仅只有SP


作者: RArchitect    时间: 2013-9-20 01:02
welo000 发表于 2013-9-20 00:57
你到底知不知道超算一般是承接什么任务啊?

少跟我打马虎眼。

你一方面说超算主要双精度,另一方面不承认科学和工程计算用双精度。

超算一般不接科学和工程计算?你的超算是火星上的超算?
作者: welo000    时间: 2013-9-20 01:05
RArchitect 发表于 2013-9-20 00:59
我先问你一个问题。

GTX 480硬件本身不阉割的话支不支持DP ? 是不是软件模拟?

我好久就说了,1/8是由单精度搭出来的,不过你肯定是不明白单精度是怎么搭成双精度的

作者: RArchitect    时间: 2013-9-20 01:05
本帖最后由 RArchitect 于 2013-9-20 01:06 编辑
welo000 发表于 2013-9-20 01:01
你确定你知道费米之前的双精度全是用单精度搭出来的?

另外,如果我不说,你肯定会1/2SP到世界末日--- ...
费米之前的双精度全是用单精度搭出来的?

所以你承认了Fermi硬件支持双精度

是就一个字,不是就两个字,爷们儿痛快点儿,甭绕圈。

下面那句我不知道你在说什么,我只说过同等硬件条件下DP极限速度最多1/2SP。
作者: welo000    时间: 2013-9-20 01:08
RArchitect 发表于 2013-9-20 01:02
少跟我打马虎眼。

你一方面说超算主要双精度,另一方面不承认科学和工程计算用双精度。

科学计算,工程计算类似成千上万种类似,你模糊成科学和工程计算,抠得一手好字眼
反正只要有一种用到双精度,你就完全可以打滚宣称所以科学和工程计算用双精度,代表大会制度嘛

就算如此,你到现在都拿不出一样科学计算是必须用到双精度的,你就这种专业水准?


作者: asdf567    时间: 2013-9-20 01:09
welo000 发表于 2013-9-20 00:59
相对于人身攻击的你,我想管理员应该先处理你

不敢,你一口咬上来我怎敢不闪
作者: welo000    时间: 2013-9-20 01:10
RArchitect 发表于 2013-9-20 01:05
所以你承认了Fermi硬件支持双精度?

是就一个字,不是就两个字,爷们儿痛快点儿,甭绕圈。

你继续抠嘛,我都不打算提所谓的消费级和专业级在之前的引用次数了,反正你怎么都能滚起来

作者: welo000    时间: 2013-9-20 01:11
asdf567 发表于 2013-9-20 01:09
不敢,你一口咬上来我怎敢不闪

一点素质都没有,上来就人身攻击
作者: asdf567    时间: 2013-9-20 01:15
welo000 发表于 2013-9-20 01:11
一点素质都没有,上来就人身攻击

不敢,我是来看你的文章的,一页一页翻到最后的时候

干货没了,扯钱了
问你要干货
然后你就开始咬我了


作者: welo000    时间: 2013-9-20 01:17
本帖最后由 welo000 于 2013-9-20 01:19 编辑
asdf567 发表于 2013-9-20 01:15
不敢,我是来看你的文章的,一页一页翻到最后的时候

干货没了,扯钱了

你先告诉我GTX 480里面负责双精度的是哪几个单元,我才有可能指出在这个帖子里我有多少干货-----很明显,我不说,你连双精度到底是什么东西都不知道

知道个浮点运算的概念有什么用,嘴炮流而已

作者: asdf567    时间: 2013-9-20 01:24
welo000 发表于 2013-9-20 01:17
你先告诉我GTX 480里面负责双精度的是哪几个单元,我才有可能指出在这个帖子里我有多少干货-----很明显, ...

别改喷我啊大神,我绝壁来翻你的文章的,天可怜见,翻着翻着就变味了

绝壁不敢嘴炮啊,你看我哪儿敢嘴炮你了

一口咬过来可不符合你大神的形象
作者: RArchitect    时间: 2013-9-20 01:25
welo000 发表于 2013-9-20 01:05
我好久就说了,1/8是由单精度搭出来的,不过你肯定是不明白单精度是怎么搭成双精度的

哈哈哈哈!

你以为软模拟浮点我没写过?

给个痛快话,我写出来了你自抽,敢还是不敢,敢就一个字,不敢就两个字。
作者: welo000    时间: 2013-9-20 01:26
asdf567 发表于 2013-9-20 01:24
别改喷我啊大神,我绝壁来翻你的文章的,天可怜见,翻着翻着就变味了

绝壁不敢嘴炮啊,你看我哪儿敢嘴 ...

哦                                                              。
作者: welo000    时间: 2013-9-20 01:28
本帖最后由 welo000 于 2013-9-20 01:34 编辑
RArchitect 发表于 2013-9-20 01:25
哈哈哈哈!

你以为软模拟浮点我没写过?

这是又上自卖自夸??

哦,好样的


怪不得你要版主帮你改ID,怕泄密果然是有原因的,跨行业跨学科你啥都会,下次你完全可以宣称各种流体动力学的模型的开发你也参与过嘛


就这浮夸的性格,谁敢让你进实验室,你知道保密合约长什么样么?

作者: RArchitect    时间: 2013-9-20 01:36
本帖最后由 RArchitect 于 2013-9-20 01:36 编辑
welo000 发表于 2013-9-20 01:08
科学计算,工程计算类似成千上万种类似,你模糊成科学和工程计算,抠得一手好字眼
反正只要有一种用到双 ...
就算如此,你到现在都拿不出一样科学计算是必须用到双精度的,你就这种专业水准?

这是我老早的回答,你敢正面应对一下?

57楼又暗示工程计算领域极少用DP,旧洞没补上又出新的,得无知到什么程度才好意思大放阙词?William Kahan就是受到学生在单精度数值模拟时遇到的结果不一致问题而在IEEE 754里面倡导一系列针对性改进,包括DP。现在谁不知道数值模拟领域DP是必不可少的?别说DP精度太高,有时候DP的精度都远远不够,一些专门的工程领域有自己的超长浮点数,精度还远高于DP。

补充:William Kahan的学生做的是航空工程。
作者: RArchitect    时间: 2013-9-20 01:37
本帖最后由 RArchitect 于 2013-9-20 01:38 编辑
welo000 发表于 2013-9-20 01:28
这是又上自卖自夸??

哦,好样的

我碰过的NDA一堆,少跟我扯别的。

我就问你一句,我写出来你自抽,写不出来我自抽乘以2,敢不敢赌?

软模拟浮点不过就是本科生课程大作业的水平,根本不算跨行业跨学科,好学校里面随便抽几个用心的人出来都会,就这个层面的东西,都敢拿出来,足见丢人。
作者: welo000    时间: 2013-9-20 01:37
RArchitect 发表于 2013-9-20 01:36
这是我老早的回答,你敢正面应对一下?

57楼又暗示工程计算领域极少用DP,旧洞没补上又出新的,得无 ...

数值模拟领域种的哪一种?航空领域又哪一种?

赶快百度

作者: welo000    时间: 2013-9-20 01:42
本帖最后由 welo000 于 2013-9-20 01:43 编辑
RArchitect 发表于 2013-9-20 01:37
我碰过的NDA一堆,少跟我扯别的。

我就问你一句,我写出来你自抽,写不出来我自抽乘以2,敢不敢赌?

别本科大作业了,有哪个像你这样恨不得全世界都知道你好厉害,好有文凭的样子

买本C回家慢慢抄大作业吧,还大作业。。。。。。。



作者: RArchitect    时间: 2013-9-20 01:42
welo000 发表于 2013-9-20 01:37
数值模拟领域种的哪一种?航空领域又哪一种?

赶快百度

需要百度么?

下面这段根本百度不到。

A graduate student in aeronautical engineering used the 7090 to simulate the
wings he was designing for short takeoffs and landings. He knew such a wing
would be difficult to control if its characteristics included an abrupt onset of stall,
but he thought he could avoid that. His simulations were telling him otherwise.
Just to be sure that roundoff was not interfering, he had repeated many of his calculations
in double precision and gotten results much like those in single; his
wings had stalled abruptly in both precisions. Disheartened, the student gave up.
Meanwhile Kahan replaced IBM’s logarithm program (ALOG) with one of his
own, which he hoped would provide better accuracy. While testing it, Kahan reran
programs using the new version of ALOG. The student’s results changed significantly;
Kahan approached him to find out what had happened.
The student was puzzled. Much as the student preferred the results produced
with the new ALOG—they predicted a gradual stall—he knew they must be
wrong because they disagreed with his double precision results. The discrepancy
between single and double precision results disappeared a few days later when a
new release of IBM’s double precision arithmetic software for the 7090 arrived.
(The 7090 had no double precision hardware.) He went on to write a thesis about
it and to build the wings; they performed as predicted. But that is not the end of
the story.
In 1963, the 7090 was replaced by a faster 7094 with double precision floatingpoint
hardware but with otherwise practically the same instruction set as the
7090. Only in double precision and only when using the new hardware did the
wing stall abruptly again. A lot of time was spent to find out why. The 7094 hardware
turned out, like the superseded 7090 software and the subsequent early
S/360s, to lack a guard bit in double precision. Like so many programmers on
those computers and on Cray’s, the student discovered a trick to compensate for
the lack of a guard digit; he wrote the expression
(0.5 – x) + 0.5 in place of 1.0 – x
.
作者: RArchitect    时间: 2013-9-20 01:44
welo000 发表于 2013-9-20 01:17
你先告诉我GTX 480里面负责双精度的是哪几个单元,我才有可能指出在这个帖子里我有多少干货-----很明显, ...

这都YY到什么程度了?

我还是那句话,我指出来你自抽,敢还是不敢?敢就一个字,不敢就两个字。
作者: welo000    时间: 2013-9-20 01:45
RArchitect 发表于 2013-9-20 01:42
需要百度么?

下面这段根本百度不到。

答非所问
作者: RArchitect    时间: 2013-9-20 01:46
welo000 发表于 2013-9-20 01:45
答非所问

我就知道你根本看不懂英文,哈哈。
作者: RArchitect    时间: 2013-9-20 01:47
本帖最后由 RArchitect 于 2013-9-20 01:48 编辑
welo000 发表于 2013-9-20 01:45
答非所问

请正面回答以下两个问题:

软模拟浮点,我写出来你自抽,敢还不是不敢?

GTX 480负责DP的单元(请定义一下“单元”)是哪个?我指出来你自抽,敢还是不敢?

大老爷们,别怂。




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4