POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 4230|回复: 8
打印 上一主题 下一主题

LSI MegaRAID一種Discovery Error的嚴重現象

[复制链接]
跳转到指定楼层
1#
发表于 2011-11-24 12:41 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
在使用LSI MegaRAID HBA, 可能有很低的機率性會遇到這種情況, 請見下圖所示:

老實講, 這種情況其實很恐怖. 這是基於HBA在discovery時期, 所發生的一種topology error問題. 但是會想到的是. 不論是enclosure或著expander的IN或OUT的port都沒有接錯啊, 為什麼會出這種錯誤呢? 你問我? 我也不知道! LSI那邊還在跟我進行這種問題上的確認. 當然你可以做powercycle的手段, 再重新讓他discovery, 但是在Initialzing BIOS的時期, 他依然會出現這種卡死的情況, 這種屬於非常嚴重的critical error, 系統是無法再進行操作下去.

這是很嚇人! 因為所建立的Array會被這個情況給搞死, 一般MegaRAID控制器使用者可能遇到這種情況, 我想會完全不知所措, 並且處於驚恐的狀態. 你會很擔心你的數據會被這個情況完全毀掉. 因為這個critical error的發生, system是處於完全hang住的狀態, 無法再繼續操作下去. ok! 這種topology上的error, 其實不才的小弟真的摸了很長一段時間. 到後來想到一種可能性的解決方式, 這個solution有比較大的機會讓你的array完整復原.

首先這種discovery時期所發生的critical error, 根本上是基於RAID Configuration的問題. 在這個情況的發生, 你能做的就是:
1. 嘗試powercrycle, 如果情況依然持續. 請看2.
2. 持續發生的情況, 請將這台機器給shutdown
shudown你的系統之後, 把所有的drive給全部pull out(拔掉), 因為這些PD上面存有RAID Configuration的Metadata. 當全部拔掉以後, 將系統給power on, 在Initializing BIOS的階段時, 你會看到discovery error已經不存在, 但是換來的代價是全部的RAID Configuration遺失, 不過這是不需要擔心的! 因為你真正的RAID Configuration依然存在在你pull out的drive上. 這只是NVRAM上的設定遺失問題.

接下來你必須要進入WebBIOS, 將所有的RAID configuration全部清空, 因為錯誤已經發生了! 你不得不這樣做. 在來儲存之後, 重開機! 再來你能做的就是shutdown這台系統. 然後將全部的drive給插回正確的slot位置上, 再次重新啟動系統. 在MegaRAID控制器上有一種目前RAID硬體中普遍常見的特徵, 就是OAR(Online Array Roaming), 這種特性會讓RAID Controller重新掃描HDD上的相關metadate, 並且重新載入到NVRAM, 使其讓Array被重新建立. 依照這種特徵, 在MegaRAID控制器處於Initializing BIOS的階段下進行OAR, 這可能需要一段時間. 之後全部的Array會被再次建立, 並且系統可以正常繼續操作下. discovery error的情況已經沒有再發生了! 當然我這邊有個建議:
要將drive全部插回去的時候, 我建議請插回之前的slot位置, 因為不這樣做, Array復原的失敗率會提高. 因為PD上metadata紀錄的slot位址完全不同. ODR是不可以和OAR同時進行, 這是極具風險的. 在LSI的MegaRAID Software Guide也提到過.

基於這種很嚴重的critical error, 這邊提出的solution怪招, 也不敢保證一定有效, 但是根據測試(惡搞?)的情況, 這個做法有很大的機會可以復原全部的RAID Array.
2#
发表于 2011-11-25 06:34 | 只看该作者
Controller會sync metadata到硬盤不?
如果會的話,然後controller自己的數據出錯,再把錯的東西sync到硬盤,還有救不?
回复 支持 反对

使用道具 举报

3#
 楼主| 发表于 2011-11-25 06:44 | 只看该作者
本帖最后由 per1-q1222 于 2011-11-25 06:45 编辑
dracocephalum 发表于 2011-11-25 06:34
Controller會sync metadata到硬盤不?
如果會的話,然後controller自己的數據出錯,再把錯的東西sync到硬盤 ...

Controller會sync metadata到硬盤不?..
就我所知..
Controller只會同步HDD上的metadata到HBA上的NVRAM部分的RAID組態設定(configuration)
回复 支持 反对

使用道具 举报

4#
发表于 2011-11-25 07:04 | 只看该作者
per1-q1222 发表于 2011-11-25 10:44
Controller會sync metadata到硬盤不?..
就我所知..
Controller只會同步HDD上的metadata到HBA上的NVRAM ...

這種問題會經常發生不?看上去很恐怖的說……
感覺NVRAM的東西如果出錯,那ECC干啥去了~~
回复 支持 反对

使用道具 举报

5#
 楼主| 发表于 2011-11-25 07:35 | 只看该作者
dracocephalum 发表于 2011-11-25 07:04
這種問題會經常發生不?看上去很恐怖的說……[ninja>
感覺NVRAM的東西如果出錯,那ECC干啥去了~~

ECC無法涉及到NVRAM...
這種錯誤發生的機率很低..
一旦真的發生了..
只能照我這種方式來做....

回复 支持 反对

使用道具 举报

6#
发表于 2011-11-25 13:28 | 只看该作者
我们需要可重复的实验结果(这个概念是流言终结者教的)
回复 支持 反对

使用道具 举报

7#
 楼主| 发表于 2011-11-25 18:17 | 只看该作者
本帖最后由 per1-q1222 于 2011-11-25 18:22 编辑
liliwinnt6 发表于 2011-11-25 13:28
我们需要可重复的实验结果(这个概念是流言终结者教的)

我可以告訴你..
這個現象在我這邊總共發生了6次左右...
甚麼概念!!..??
我建議你可以詢問以下Mail:
support@lsi.com

哪裡是流言了??...
這根本完全不是好現象..

依照如果把NVRAM的configuration全部清掉..
透過OAR進行import...
確實是可行的..
這個前提是HDD的metadata不會受損..
並且slot位址跟先前是一樣的..
這部分在LSI Software Guide已提到過..
回复 支持 反对

使用道具 举报

8#
发表于 2011-11-25 22:45 | 只看该作者
per1-q1222 发表于 2011-11-25 18:17
我可以告訴你..
這個現象在我這邊總共發生了6次左右...
甚麼概念!!..??

我没说是流言...

"共发生了6次",那么能不能"想要它发生,就能发生"?
回复 支持 反对

使用道具 举报

9#
 楼主| 发表于 2011-11-25 22:48 | 只看该作者
本帖最后由 per1-q1222 于 2011-11-25 22:50 编辑
liliwinnt6 发表于 2011-11-25 22:45
我没说是流言...

"共发生了6次",那么能不能"想要它发生,就能发生"?

不能...
如果你希望發生..
你可以買塊SAS Expander Card..
例如Intel RES2SV240..
然後建好Array之後..
將initiator混亂對接到iniator..
就有可能發生topology error的情況...
如果你希望這樣的話!!...
但是我這邊不想嘗試了...

你如果還有其他疑問的話..
你可以詢問
support@lsi.com

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-19 03:18

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表