POPPUR爱换

标题: 【RAID大神per1-q1222成功救回!】 H700 VD 掉线, 无法导入Foreign Conf [打印本页]

作者: jimmyjin    时间: 2012-7-15 22:17
标题: 【RAID大神per1-q1222成功救回!】 H700 VD 掉线, 无法导入Foreign Conf
本帖最后由 jimmyjin 于 2012-7-17 00:30 编辑

今天下午因为电源不稳定的关系, VD degrad了, 我懒得rebuild, 就一个个HDD 转成off line, 准备重启后重新导入Foreign Config, 这样就不需要Rebuild了。
结果是重启后RAID 卡BOIS处直接告诉我无法认出config, 不管进了系统(win7), 我就像以前那样 import foreign config, 失败,  load config from saved config (存在电脑上的文件),失败

重启, CTRL+R 进RAID  BOIS, 尝试在那里import config, 结果告诉我off line VD cannot be import


这该怎么办啊? 各位RAID大神乱入吧!!



作者: 坏朋朋    时间: 2012-7-15 22:44
不懂,只能帮顶。。。。。。。。。。。。。H700是个好东西,就是搞起来太复杂
作者: kinno    时间: 2012-7-16 00:36
帮顶,这个得等高玩了
作者: jimmyjin    时间: 2012-7-16 00:37
睡前一顶, 目前还没搞定, 换了最新F/W, 无用

作者: jimmyjin    时间: 2012-7-16 09:59
有没有办法不用MSM里的auto import, 而是命令行强制import呢?
作者: zyzs    时间: 2012-7-16 11:27
拔掉硬盘,清空Config,再插盘上去也不能认出raid了?
作者: sagecao    时间: 2012-7-16 11:29
离线后写过数据还能这样搞?
作者: jimmyjin    时间: 2012-7-16 11:37
sagecao 发表于 2012-7-16 11:29
离线后写过数据还能这样搞?

当然没写过
作者: sagecao    时间: 2012-7-16 11:41
jimmyjin 发表于 2012-7-16 11:37
当然没写过

你确认硬盘离线后,马上断电了?
作者: jimmyjin    时间: 2012-7-16 11:47
zyzs 发表于 2012-7-16 11:27
拔掉硬盘,清空Config,再插盘上去也不能认出raid了?

清空config???  你是说插上盘, 当所有盘都是unconfiged good的时候 clear config? 这样不是会真的所有数据都丢了??
作者: per1-q1222    时间: 2012-7-16 12:20
本帖最后由 per1-q1222 于 2012-7-16 12:22 编辑

這個情況不要清COD...
清了可能會全死光...
你現在處於unmatch的情況...
可能需要您提供tty log..

作者: jimmyjin    时间: 2012-7-16 12:40
per1-q1222 发表于 2012-7-16 12:20
這個情況不要清COD...
清了可能會全死光...
你現在處於unmatch的情況...

终于大神出现了!!! per1大大告诉我怎么导出tty log吧,  晚上下班就能操作!


作者: per1-q1222    时间: 2012-7-16 12:44
本帖最后由 per1-q1222 于 2012-7-16 12:45 编辑
jimmyjin 发表于 2012-7-16 12:40
终于大神出现了!!! per1大大告诉我怎么导出tty log吧,  晚上下班就能操作!

http://www.osslab.com.tw/index.php?title=Storage/Enterprise/SAS%E8%88%87RAID/LSI/LSI_RAID_Software_Stack_Training/TTY_Log(Firmware_Log)
作者: jimmyjin    时间: 2012-7-16 13:34
per1-q1222 发表于 2012-7-16 12:44
http://www.osslab.com.tw/index.php?title=Storage/Enterprise/SAS%E8%88%87RAID/LSI/LSI_RAID_Software ...

在MSM save TTY log 出来的log 竟然有5M!
原件太大无法做附件, 我就去掉了7月以前的部分
per1 大大看看这个是你要的吗?[attach]1951138[/attach]
作者: stephenmaxmax    时间: 2012-7-16 15:13
你force online不就行了吗,一个个都offline的用意是?
作者: jimmyjin    时间: 2012-7-16 15:22
stephenmaxmax 发表于 2012-7-16 15:13
你force online不就行了吗,一个个都offline的用意是?

唉, 很蛋疼的故事, 直接force online, VD 就恢复成optimal了, 但是老是要BGI, BGI也就算了, 还是碰到media error 跳出红色警告框。
于是我就想offline 后重新认 config, 这样不会自动BGI.......
蛋疼啊蛋疼, 为了不BGI 我竟然去手动offline了, 真不知道当时怎么想的
作者: zyzs    时间: 2012-7-16 15:31
出问题第一时间备份数据,然后随便折腾了
作者: per1-q1222    时间: 2012-7-16 18:19
我發現你PowerSaving做得太過頻繁....
我不建議對WD AV-GP這種規格的HDD頻繁做節能..
我認為他只會加速死亡...

剩下的我還在看..
作者: jimmyjin    时间: 2012-7-16 18:26
per1-q1222 发表于 2012-7-16 18:19
我發現你PowerSaving做得太過頻繁....
我不建議對WD AV-GP這種規格的HDD頻繁做節能..
我認為他只會加速死 ...

这个问题, 我也不知道去问win7 还是LSI, 事实上我的RAID5阵 AV-GP X4 平常读写很少, 几天也没有一次, 这就是我重视DS3的原因,希望无读写时可以powersave。 但问题是不知怎么的, 当我网络访问这台机器,比如视频串流, 但不在VD上, 甚至有时是机器自己刚做完了一个BT下载( 也不在VD上), 都有机会把VD唤醒下。  所以, PowerSaving会比较频繁,但是, 那也基本是1~2天起来一次
作者: per1-q1222    时间: 2012-7-16 18:31
本帖最后由 per1-q1222 于 2012-7-16 18:31 编辑
jimmyjin 发表于 2012-7-16 18:26
这个问题, 我也不知道去问win7 还是LSI, 事实上我的RAID5阵 AV-GP X4 平常读写很少, 几天也没有一次, ...

我建議你應該把PowerSaving時間拉長..
太過頻繁的PowerSaving很具風險..
尤其對這種IntelliPower的可變速HDD來說更是要小心..

從你的log來看..
你似乎是在07/08發生degraded...???

作者: per1-q1222    时间: 2012-7-16 18:46
本帖最后由 per1-q1222 于 2012-7-16 18:46 编辑

根據你其中的log紀載資訊...
07/15/12 23:56:42: ****  JUST READING CFG !!!!
07/15/12 23:56:42: createMegaraidCfg: ***** attempting to import a normal VD with targetID 255 while have all vds with pinned cache or no pinned cache
07/15/12 23:56:42: isForeignCfgComplete: Foreign - totAr: 0x1, totLd: 0x1, totSpare: 0x0
07/15/12 23:56:42: isForeignCfgComplete: MR_CFG  - totAr: 0x1, totLd: 0x1, totSpare: 0x0
07/15/12 23:56:53: EVT#45569-07/15/12 23:56:53: 218=Foreign Configuration Detected
07/15/12 23:56:53: ForeignImport requested for guidIndex 0xff.
07/15/12 23:56:53: parsePartitionsBVD : pd=5 emergency bit set
07/15/12 23:56:53: ddfValidateForCfg: ldAfterImport 0,  invalidLd 1, import 1
07/15/12 23:56:53: **** PinnedCacheDataStructures->pinned_cache_present 0
07/15/12 23:56:53: sscPinnedWindowInfo.ssd_window_pinned 0
07/15/12 23:56:53:  ld 0  targetId ff LdMapTargetIdToLd 0
07/15/12 23:56:53: ****  total_num_vds_pinned 0  number_pinned_vds_found_during_import 0
07/15/12 23:56:53: ****  NO PINNED CACHE !!!!
07/15/12 23:56:53: createMegaraidCfg: ***** attempting to import a normal VD with targetID 255 while have all vds with pinned cache or no pinned cache
07/15/12 23:56:53: isForeignCfgComplete: Foreign - totAr: 0x1, totLd: 0x1, totSpare: 0x0
07/15/12 23:56:53: isForeignCfgComplete: MR_CFG  - totAr: 0x0, totLd: 0x0, totSpare: 0x0
07/15/12 23:56:53: ForeignImport: Nothing to import
07/15/12 23:56:53: EVT#45570-07/15/12 23:56:53: 396=Foreign configuration auto-import did not import any drives

在我看來這可能是一個NVRAM上的metadata與PD上的COD不匹配引發..

作者: jimmyjin    时间: 2012-7-16 19:22
per1-q1222 发表于 2012-7-16 18:46
根據你其中的log紀載資訊...
07/15/12 23:56:42: ****  JUST READING CFG !!!!
07/15/12 23:56:42: creat ...

谢谢Per1大, 我觉得你的判断是对的!
受到前面一个帖子的启发, 你觉得这样做可以么? (当然前提是数据安全):
1. 关机, 把阵列盘取出
2. 开机, 进OS, 打开MSM,这时候应该一个Phy Disk都没有
3. 点选Clear conifg, 清除NVRAM中的config
4 关机
5。 阵列盘放入, 再开机 进OS /MSM
6. 尝试import , 不过这次是从COD上找到的config 期望能成功

你觉得这样可以么? 我想这样就可以避免COD和NVRAM mismatch, 其实有点像把旧阵列import到一块全新的H700上。  per1大觉得可行么?

作者: per1-q1222    时间: 2012-7-16 19:25
jimmyjin 发表于 2012-7-16 19:22
谢谢Per1大, 我觉得你的判断是对的!
受到前面一个帖子的启发, 你觉得这样做可以么? (当然前提是数据 ...

首先有兩個問題:
1. 你目前的盤確認是安全的?
2. 有換過盤序嗎?
作者: zyzs    时间: 2012-7-16 19:30
我就怕你的错误是存在硬盘上的,我之前升级硬盘固件,那个错误清了config都还是不行,换张卡也不行,明显是盘上数据出错......
作者: jimmyjin    时间: 2012-7-16 19:31
per1-q1222 发表于 2012-7-16 19:25
首先有兩個問題:
1. 你目前的盤確認是安全的?
2. 有換過盤序嗎?

1. 应该是吧, 设为offline前后都没有读/写
2.没有换盘序
作者: 坏朋朋    时间: 2012-7-16 19:32
顶各位大神。。。。。。。。。。。。。。。。。。拜了
作者: per1-q1222    时间: 2012-7-16 19:33
jimmyjin 发表于 2012-7-16 19:31
1. 应该是吧, 设为offline前后都没有读/写
2.没有换盘序

那麼你可以嘗試這樣的做法(可能性)..
如果確認VD已找到..
但是..., 進OS沒有找到任何partition..
請馬上在論壇反映...
不要做任何操作...
作者: jimmyjin    时间: 2012-7-16 20:11
zyzs 发表于 2012-7-16 19:30
我就怕你的错误是存在硬盘上的,我之前升级硬盘固件,那个错误清了config都还是不行,换张卡也不行,明显是 ...

如果是你说的情况, 好像也没救了

作者: jimmyjin    时间: 2012-7-16 20:19
per1-q1222 发表于 2012-7-16 19:33
那麼你可以嘗試這樣的做法(可能性)..
如果確認VD已找到..
但是..., 進OS沒有找到任何partition..

得令! 试去了
Good Luck!
作者: jimmyjin    时间: 2012-7-16 20:31
per1-q1222 发表于 2012-7-16 19:33
那麼你可以嘗試這樣的做法(可能性)..
如果確認VD已找到..
但是..., 進OS沒有找到任何partition..

失败了..........
进MSM还是4个 unconfiged good PD, 尝试import , 还是失败.......
附件是scan得到的config, 我现在怀疑我手动offline这一步是大败笔
[attach]1951544[/attach]

作者: zyzs    时间: 2012-7-16 20:39
本帖最后由 zyzs 于 2012-7-16 20:40 编辑

回头写个的总结,让其他人学习下免得以后中招了......
不过我觉得还是有救的,找lsi工程师改下硬盘里面配置估计能恢复,毕竟数据都在

作者: per1-q1222    时间: 2012-7-16 21:14
jimmyjin 发表于 2012-7-16 20:31
失败了..........[cry>
进MSM还是4个 unconfiged good PD, 尝试import , 还是失败.......
附件是scan ...

如果您可以...
有用msn?
作者: jimmyjin    时间: 2012-7-16 21:24
per1-q1222 发表于 2012-7-16 21:14
如果您可以...
有用msn?

PM你了, 多谢 per1大古道热肠
作者: jimmyjin    时间: 2012-7-17 01:09
per1-q1222 发表于 2012-7-16 21:14
如果您可以...
有用msn?

per1-q1222大神深夜亲自远程操刀, 神奇滴救回了offline VD。
他老人家一直在我这里VNC忙到深夜一点, 不但恢复了VD , 还帮我优化了很多设置, 大感谢啊!!!

具体的技术阐述, 我就不专美了, 留给P大来讲解吧.........
作者: 帝国战猪    时间: 2012-7-17 08:54
P大是好人啊,这种行为是一定要赞美的
作者: zyzs    时间: 2012-7-17 08:56
恭喜!等p大讲解!
作者: lucifersun    时间: 2012-7-17 10:00
关注P大的过程讲解
作者: 霹雳火    时间: 2012-7-17 16:33
果然高人多,这些毕竟很少人能够熟练,坐等讲解
作者: per1-q1222    时间: 2012-7-18 18:14
本帖最后由 per1-q1222 于 2012-7-18 18:18 编辑

就這次的問題可能有幾種情況:
1. RAID Controller上NVRAM的DDF數據與VD上的COD不匹配...
2. COD不穩定

參考這個案例:
http://we.pcinlife.com/thread-1825181-1-1.html
使用OAR無效, COD並不是穩定...

到最後只好使用re-creating VD without initialization..
不會摧毀parity...
但是先前盤序一定要對..
因為條帶順序會影響數據結構....
盤序不對還是會死...
stripe size也要與先前的一樣..
如果確保之前沒有干涉到任何異常操作...
ex: rebuild, cc
可能有機會復原...
這次運氣好的是使用這個方式使得VD被復原..

不過LZ的其中一個PD的bad sector情況很嚴重....
一個案例:
http://www.osslab.com.tw/Storage/Enterprise/SAS%E8%88%87RAID/LSI/LSI_RAID_Software_Stack_Training/Media_Error_Count

另外LZ的Sense Code解讀是B-0-0:
請參考:
http://www.osslab.com.tw/Storage/Enterprise/SAS%E8%88%87RAID/LSI/LSI_RAID_Software_Stack_Training/Sense_Code_Message
很可惜這個Sense Code無法提供任何詳細資訊..

作者: zyzs    时间: 2012-7-18 18:47
太复杂了看不懂.........
请教p大个问题,我硬盘做成了jbod,硬盘全部放在一个机箱内,电源是独立的,用专用24针跳线启动电源
pc主机上的raid卡接2条线到jbod上的扩展卡,如果我不小心踢到了电源线导致jbod上面全部断电,pc主机上raid卡提示全部硬盘离线,这个时候最佳恢复方法是怎么样的?
直接启动jbod还是关了主机然后一起启动?
作者: per1-q1222    时间: 2012-7-18 19:02
zyzs 发表于 2012-7-18 18:47
太复杂了看不懂.........
请教p大个问题,我硬盘做成了jbod,硬盘全部放在一个机箱内,电源是独立的,用专 ...

使用的是甚麼RAID卡?
作者: zyzs    时间: 2012-7-18 19:10
per1-q1222 发表于 2012-7-18 19:02
使用的是甚麼RAID卡?

9260 9265 710p
这3块中选暂时还没决定,intel扩展卡
作者: per1-q1222    时间: 2012-7-18 19:21
zyzs 发表于 2012-7-18 19:10
9260 9265 710p
这3块中选暂时还没决定,intel扩展卡

你目前的提問是未來式?..
作者: zyzs    时间: 2012-7-18 19:44
per1-q1222 发表于 2012-7-18 19:21
你目前的提問是未來式?..

是啊,想提前了解,好决定最终方案
作者: per1-q1222    时间: 2012-7-18 19:47
zyzs 发表于 2012-7-18 19:44
是啊,想提前了解,好决定最终方案

9260-8i不支持JBOD...
710P目前也沒辦法做JBOD...
只有9265最新的f/w可以做..

JBOD mode比較單純...
再重轉換JBOD mode即可回復..
但是我認為你需要的是一張IR/IT HBA做直接pass-through...
作者: zyzs    时间: 2012-7-18 19:59
per1-q1222 发表于 2012-7-18 19:47
9260-8i不支持JBOD...
710P目前也沒辦法做JBOD...
只有9265最新的f/w可以做..

我好像说错了............
我详细说下......
我主机和硬盘是分开的,主机用自己的电源和机箱,另一个机箱24盘位用独立的电源,2个电源不是同时启动或关闭的,扩展卡用intel的,24盘是2组8盘raid5,1组8盘raid 0,raid卡在另一台pc上
主机上的raid卡通过2条8087连接24盘位机箱上的扩展卡
这时问题就来了,要是不小心24盘位断电,主机上的卡提示全部硬盘掉线,怎么恢复才是最佳方式?
应为我没试过,所以提前问下,免得以后麻烦
作者: per1-q1222    时间: 2012-7-18 20:10
zyzs 发表于 2012-7-18 19:59
我好像说错了............
我详细说下......
我主机和硬盘是分开的,主机用自己的电源和机箱,另一个机 ...

重新開電即可...
他會提示您如何操作...

極低可能遭遇到的情況會是這種:
http://www.osslab.com.tw/Storage ... g_Initializing_BIOS
作者: jimmyjin    时间: 2012-7-18 20:10
per1-q1222 发表于 2012-7-18 18:14
就這次的問題可能有幾種情況:
1. RAID Controller上NVRAM的DDF數據與VD上的COD不匹配...
2. COD不穩定

回报下Per1大大:
今天下午在office没事,RDP到家里, 对着你的Sense code那篇文章好一个研究, 可惜的确这个Sense Code查不到......
这个sense code应该不是LSI独有, 而是SATA/SAS spec规定的, 明天我再去翻翻SATA2.6 的Specifiction 有没有提到。 小弟10年前做过SATA controller的硬件设计, 可惜Sense这个东西是OS driver和 HDD device间的talking, 那时涉及甚少 , 加之我也没涉及过SAS, 现在要研究出个所以然来很难。 上海LSI的RD 倒是有朋友, 但是都不在RAID那个dept., 估计也是问不到。

至于Bad sector的问题, 你那晚看到有211个 offline uncorrectable sector, 但是第二天我换了一个稳定的电源, 更新的Smart就显示只有3个了。 看来不稳定的电源的确是元凶! 目前的情况, BGI 或者CC 还是会fail在那个Sense, 我还在把里面的数据全部backup中, 等backup完成, 我就放手试下没有initialize完成情况下做Rebuild

另, 之前用的是WD AV-GP EVDS, 512byte sector 的版本, 担心现在RMA回来或者淘宝买新的都会是4K sector的 WD AV-GP EURS, 这样的4K 盘能Rebuild 进原来非4K盘的阵列么?

作者: per1-q1222    时间: 2012-7-18 20:16
本帖最后由 per1-q1222 于 2012-7-18 20:16 编辑
jimmyjin 发表于 2012-7-18 20:10
回报下Per1大大:
今天下午在office没事,RDP到家里, 对着你的Sense code那篇文章好一个研究, 可惜的确 ...

另, 之前用的是WD AV-GP EVDS, 512byte sector 的版本, 担心现在RMA回来或者淘宝买新的都会是4K sector的 WD AV-GP EURS, 这样的4K 盘能Rebuild 进原来非4K盘的阵列么?

這種所謂的512e盤...
LSI MegaRAID無法對應4K sector..
由於為HDD f/w會進行轉換...
但是要注意的是MegaRAID無法保證512e的取得效能...


作者: jimmyjin    时间: 2012-7-18 20:19
per1-q1222 发表于 2012-7-18 20:16
另, 之前用的是WD AV-GP EVDS, 512byte sector 的版本, 担心现在RMA回来或者淘宝买新的都会是4K secto ...

看来还是和WD尽量要求RMA回来原型号比较保险
作者: zyzs    时间: 2012-7-18 20:21
per1-q1222 发表于 2012-7-18 20:10
重新開電即可...
他會提示您如何操作...

了解!
直接启动24盘机箱电源就行了?我一直以为最好的方法是先关闭主机,在一起重启.....
作者: per1-q1222    时间: 2012-7-18 20:23
zyzs 发表于 2012-7-18 20:21
了解!
直接启动24盘机箱电源就行了?我一直以为最好的方法是先关闭主机,在一起重启.....

不用...
直接透過MSM掛回去即可..
作者: kinno    时间: 2012-7-18 21:47
顶砖家~~~~~~~~~
作者: thenero    时间: 2012-7-19 08:39
真心是专家不是“砖家”




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4