LSI RAID/HBA (or OEM)產品(RoC/IOP)集中討論...

luomax · 发表于 2013-10-7 21:02

per1-q1222 发表于 2013-10-7 20:57
sorry..
最近很忙..
一時沒辦法上線...[sweat>

H800有问题？

per1-q1222 · 发表于 2013-10-7 21:22

本帖最后由 per1-q1222 于 2013-10-7 21:24 编辑

luomax 发表于 2013-10-7 21:02
H800有问题？

快速根據你的log來看...
我看到了以下資訊...
09/30/13 16:31:30: EVT#01599-09/30/13 16:31:30: 113=Unexpected sense: Encl PD 0a Path 500c04f25f0f603d, CDB: 1c 01 00 00 20 00, Sense: 6/29/00
09/30/13 16:31:30: Raw Sense for PD a: 70 00 06 00 00 00 00 0b 00 00 00 00 29 00 00 00 00 00 00
09/30/13 16:31:30: SES_GenericCallback: enclPd=a...RDM_STATUS =2 retries: 0
09/30/13 16:31:30: Cmd Details: 1c 01 00 00 20 00
09/30/13 16:31:30: CDB: 1c 01 00 00 20 00 00 00 00 00 00 00 00 00 00 00  LEN=6

09/30/13 16:31:30: Sense Data at: 80520240
09/30/13 16:31:30: responseCode: 70    valid: 0    segmentNumber: 0    senseKey: 6    ili: 0    eom: 0    filemark: 0 information: 0    additionalSenseLength: b    commandSepcificInfo: 0       asc: 29       ascq: 0       fruCode: 0    sksv: 0       fieldPointer: 0
09/30/13 16:31:30: SES_GenericCallback: enclPd=a...RDM_STATUS =1 retries: 1
09/30/13 16:31:30: Cmd Details: 1c 01 00 00 20 00
09/30/13 16:31:30: SES General Error on EnclPd:a  sts:1  RetryCount:1  msg:80520200  txfrAddr:8429f3a0
09/30/13 16:31:30: Dell slot Offset = 0
這是一個SES error...
這個跟硬件相容性比較有關係...
印象這個是無解...
我曾經向LSI問過這個error...

其他的我還要在花點時間看..
有點多..
你之前提供的截圖是這塊的??

luomax · 发表于 2013-10-7 23:13

per1-q1222 发表于 2013-10-7 21:22
快速根據你的log來看...
我看到了以下資訊...
09/30/13 16:31:30: EVT#01599-09/30/13 16:31:30: 113=U ...

老大，你就说怎么解决嘛

per1-q1222 · 发表于 2013-10-8 00:24

本帖最后由 per1-q1222 于 2013-10-8 00:26 编辑

luomax 发表于 2013-10-7 23:13
老大，你就说怎么解决嘛

我沒辦法給你這個問題的解決方式..
因為這很像是硬件相容性觸發的問題..

我從log最後發現到這個情況..
09/30/13 16:31:30: SES General Error on EnclPd:a sts:1 RetryCount:1 msg:80520200 txfrAddr:8429f3a0
09/30/13 16:31:30: Dell slot Offset = 0
09/30/13 16:31:30: EVT#01600-09/30/13 16:31:30: 167=Enclosure PD 0a(c 00/p0) communication restored
09/30/13 16:31:30: EVT#01601-09/30/13 16:31:30: 243=Enclosure PD 0a(c 00/p0) fan 1 speed changed
09/30/13 16:31:30: EVT#01602-09/30/13 16:31:30: 243=Enclosure PD 0a(c 00/p0) fan 2 speed changed
09/30/13 16:31:30: EVT#01603-09/30/13 16:31:30: 243=Enclosure PD 0a(c 00/p0) fan 3 speed changed
09/30/13 16:31:30: EVT#01604-09/30/13 16:31:30: 243=Enclosure PD 0a(c 00/p0) fan 4 speed changed
09/30/13 16:31:30: EVT#01605-09/30/13 16:31:30: 176=Enclosure PD 0a(c 00/p0) EMM 1 removed

我看到這個SES錯誤引發EMM通訊異常整個被踢掉...
可以的話使用lsigetwin提供更詳細的報告...
因為在這個情況下tty log的資訊變得很有限...

有限的情況只能試著刷新HDD的f/w...
如果是DELL的OEM盤試著刷新...

SES error是我前年在intel sas expander遭遇到的問題...
當時我覺得這可能是HDD引發的問題...
因為我是用WD的DELL OEM盤(FYYG SAS 6Gb/s 1TB)...
我問LSI, 他給我的答覆就是叫我換硬件...

那時我試著刷HDD固件, 一直刷不進(在固件檢測階段出錯, HDD沒有整個報銷)...

這個問題隨著我更換RAID HBA(LSISAS2208)並且一直刷新固件後..
已經沒再看到這個error了

現階段我只能建議你提供lsigetwin的腳本報告...
http://mycusthelp.info/LSI/_cs/A ... QIINWSIHUWCMYHYKPAD

老兄覺得麻煩的話, 那就再觀察一段時間...

luomax · 发表于 2013-10-8 08:48

per1-q1222 发表于 2013-10-8 00:24
我沒辦法給你這個問題的解決方式..
因為這很像是硬件相容性觸發的問題..

大概明白了，万分感谢

尛帥 · 发表于 2013-10-8 13:59

P大，我是 5块普通希捷1TB 做 RAID5 ，系统放阵列里面的

前段时间要重启几次才能进系统，之后就像现在提示这样子了，

卡住进不去了。

per1-q1222 · 发表于 2013-10-8 18:43

尛帥发表于 2013-10-8 13:59
P大，我是 5块普通希捷1TB 做 RAID5 ，系统放阵列里面的

前段时间要重启几次才能进系 ...

關機一段時間後..
再重開機看看

leko · 发表于 2013-10-9 11:26

per1-q1222 发表于 2013-10-7 20:54
主要就是數據壓縮...[glare>

数据压缩？

类似EMC他们的重复数据删除？？

XDQ · 发表于 2013-10-9 19:09

最近想买块9211，我在淘宝上看到基本上有350左右（说是国内造的），450保一年，500保三年 3种。就想问下500保三年这种会是lsi原装卡么？还是依然是拆机/OEM刷的？

leko · 发表于 2013-10-10 10:11

XDQ 发表于 2013-10-9 19:09
最近想买块9211，我在淘宝上看到基本上有350左右（说是国内造的），450保一年，500保三年 3种。就想问下500 ...

500保3年，应该是原装的
我朋友买过一块，正常使用

per1-q1222 · 发表于 2013-10-10 10:46

本帖最后由 per1-q1222 于 2013-10-10 10:46 编辑

leko 发表于 2013-10-9 11:26
数据压缩？

类似EMC他们的重复数据删除？？

這部分沒有太多文件資訊..
也許可能是基於自家開發的DVC技術...

dadadadamak · 发表于 2013-10-10 10:54

leko 发表于 2013-10-10 10:11
500保3年，应该是原装的
我朋友买过一块，正常使用

500 怎會是原装的.
国外原装卡卖2000.

per1-q1222 · 发表于 2013-10-13 00:41

本帖最后由 per1-q1222 于 2013-10-13 00:43 编辑

前幾天其他網站的網兄遭遇案例...
http://www.pcdvd.com.tw/showthread.php?t=1027389&page=1&pp=10
bad block發生..
請問這個 bad strips 發生的原因是什麼？
是硬體故障還是操作不當？
他一開始更新韌體的時候先把硬碟拔掉，更新完發現卡有問題，換一塊卡之後發現一顆硬碟失效，rebuild 之後就有 bad strips 了。
"他一開始更新韌體的時候先把硬碟拔掉，更新完發現卡有問題，換一塊卡之後發現一顆硬碟失效，rebuild 之後就有 bad strips 了。"
其實行為上太過草率...
當然這有可能是很多MIS的標準操作...
那個換個方向思考..
他們在進行替換之前都在幹甚麼??...
定期的維護計畫呢???

對方有沒有進行定期的操作..?
1. CC
2. Disk Scrubbing(Media Scans or Patrol Read..)
敢做有無能力看h/w log??? 解析sense code??
從你的截圖來看應當是adaptec體系...
我對這體系的產品幾乎不熟.....
向來我是西瓜餵大邊.......
我摸過幾款, 但是我從來沒仔細玩這家的東西..
要知道記憶command是很累的事.....

請問這個 bad strips 發生的原因是什麼？
是硬體故障還是操作不當？
最好的方式請他提供h/w log(不是event log喔...那東西我覺得沒啥好看的..)...
雖然我認為他們可能拿不出來或著不願意提供(HBA都被換掉了..)...

可能有一種情況可以解釋...
bad block先前就存在了...
只是RAID f/w操作的過程中剛好被掃到...

"他一開始更新韌體的時候先把硬碟拔掉，更新完發現卡有問題，換一塊卡之後發現一顆硬碟失效，rebuild 之後就有 bad strips 了。"
我不太清楚更新硬體幹嘛要把HDD全拔了??..
對adaptec的core IP這麼沒自信???..

一種可能的情況...
建好的VD,關機後將PD進行抽換這是注意的行為...
slot number與原先不符就等於metadata與先前的完全不一致..
在LSI體系我看過2~3個案例都是這樣...
拔掉HDD插回去, VD掛掉...
因為metadata完全不一致, 順序都不同了...
怎麼可能一致??!..
OAR(Online Array Roaming)和ODR(Online Drive Roaming)盡量切勿衝突...
這有可能干涉metadata...

匹配性的操作盡量如下注意:
1. 盡可能不要破壞HDD的順序性, 因為這會牽涉到metadata的一致以及stripping的順序
2. 透過HSP操作rebuild完, metadata就100%保證不一致. 這時MIS就不能直接擺著跑下去(請不要偷懶.., 掛了幾乎沒有MIS有能力去算stripe的順序性...)..
應當盡可能找時間取得新的HDD替換原來故障的HDD, 這表示可能一段時間. RAID f/w會立即操作copyback..(SSD的copyback在LSI稱為SSD Guard..),
以匹配原始的metadata. 這種HSP操作稱為revertable HSP..
3. OAR(Online Array Roaming)是可以允許的, 這幾乎是商品的必要條件. 但是要注意一點. 替換HBA後, HDD的順序請與原先的一致
ex:
before===>after
s1 -> s1
s2 -> s2
4. ODR(Online Drive Roaming)是一種可以允許原先的HBA使HDD順序"亂"換重新在維護metadata...
但是切勿盡量與替換的HBA衝突, 因為這是OAR與ODR的衝突...
有可能觸發metadata非一致性..
近代RAID系統除了"某幾家"之外, 皆有提供NVSRAM的設計, 我印象adaptec和LSI應該都是32KB左右. 這個東西有幾種作用.
a. write-journaling以建立checkpoint. 這功能有時會發揮關鍵性的作用.
b. 存放metadata和config, 這裡的metadata用以維護VD上的metadata. 因此原先的HBA隨意替換順序, 應該都不受影響. 當然更換HBA情況就不同了...
c. block change tracking, LSI沒做這功能. adaptec我不太清楚..
d. h/w logging, it's very important!!....really........靠這個曾經拯救我好幾次..

關於bad srtipe部分, RAID f/w會盡可能操作scan和remapping(correcting)...
時常可能會進入deep scan的情況, 如果HDD對於ERC的容忍度幾乎為0...
沒多久就是kick-out...

bad stripe發生後, 有沒有可能後續修復..?
這是有可能的..
1. 直接CC和Media Scan, 看有沒有機會修復VD, 之後再進行替換...
2. 將bad block的HDD進行替換, 再做一次rebuild賭看看...

rebuild過後的bad stripe有時意謂某些情況(可能性的! 要看廠商有沒有做..)
有一種特殊的行為稱為刺穿, 當一個bad block在rebuild過程中發生時, 依然有辦法繼續進行下去.
對於parity RAID mode會是這樣做..
d?=p1 XOR d1 XOR d2 XOR d3 XOR ..dx XOR dy(bad->soft)..XOR dn
dy是一個bad block, 但是RAID f/w為了維持穩定性...
錯誤的dy依然會繼續操作下去..., 結果取出的d?就是錯的data block...
這種操作為了穩定性是不得已的(至少VD盡可能避免掛掉)...,
LSI在logging上會明顯標示這種行為性的發生...

爱喝可乐的小白 · 发表于 2013-10-13 16:36

zyzs 发表于 2013-9-18 15:57
按原理，掉的盘数据是旧的，强制上线后运行cc修复，应该是当前raid的数据恢复到failed盘里
我实际遇到的 ...

zyzs，给我一下你chkdsk后面跟的参数，谢谢，我。。。也遇到了。。。强制online一块盘，结果，我之前盘上做的一些变更，也回来了，甚至有目录打不开了，天。。。

jackswei · 发表于 2013-10-15 09:43

本帖最后由 jackswei 于 2013-10-15 09:45 编辑

我在10/10 也遇到不小心輕撞到電腦，2顆offine ，一個vb offine ，後重開
強制online 後再重開我的55t 二個分割區無去開啟(點了，會問我要不要格式化)，我再重開 win7 自動做 chkdsk (做了一天後)，再開進去看，全部資料無法讀，
現在不敢動了，找時間送去 osslab 救資料，不知可回機成，快哭了，這......

p大 log檔。
發生在 10/10/13 19:47:00

per1-q1222 · 发表于 2013-10-15 12:42

本帖最后由 per1-q1222 于 2013-10-15 12:47 编辑

jackswei 发表于 2013-10-15 09:43
我在10/10 也遇到不小心輕撞到電腦，2顆offine ，一個vb offine ，後重開
強制online 後再重開我的55t ...

請聯繫我..
讓我快速判讀你的問題...
理應上你掉盤後..
應該是甚麼行為都不可以做...
立即反應至討論區..

jackswei · 发表于 2013-10-15 20:09

本帖最后由 jackswei 于 2013-10-15 20:21 编辑

來不及了，當時看到55t 的二個磁區都打不開，重開後就讓win7做chkdsk ，做完後進去win7 我就知掛了(沒一個檔開的起來)，就關機拆下了，找時間送 osslab 看要多少錢再決定。以前直接強制 online 都沒關題的，誰知這一次就...

當學教訓了，這些大多是bdrip、dvdrip 的動畫收集了七年，現在還在思考值不值的花錢救而以。一想心血...

當時傻了，好像有clean raid 組態，然後重建組態不初始化後，連原本好的 vd 也都無法讀了，看的到分割區，最重要的資料尚未chkdsk 的四顆r5 已送osslab 了。我以前有幹過這種事，都正常，怎麼這一次就掛了，組態的stripe size 我都用256k 只有27t 的才用512k，也是原封不動設回去，印像中。當時發生這種事，真的變笨了。

尛帥 · 发表于 2013-10-17 10:23

本帖最后由尛帥于 2013-10-17 10:25 编辑

P大，一直卡在这个界面。。。

很难进去系统啊。

是卡出问题了么？

之前用都挺好的，我是 5块普通希捷1TB 做 RAID5 ，系统放阵列里面的

10月5号之后就开始出现这界面了，经常重启几十次才能进去。

昨天到今天都没能进去系统。

卡的bios界面也进不去。。。

只能进主板的bios界面

leko · 发表于 2013-10-17 11:37

尛帥发表于 2013-10-17 10:23
P大，一直卡在这个界面。。。

很难进去系统啊。

看英文提示
是否卡的温度过高？
但是刚开机，9260的温度不会太高才对

爱喝可乐的小白 · 发表于 2013-10-17 12:33

尛帥发表于 2013-10-17 10:23
P大，一直卡在这个界面。。。

很难进去系统啊。

我一般拔掉所有盘，看看会不会报missing盘什么的，至少知道卡还能识别到盘，不知道我的操作对不对，至少我盘插上去之后，都不会有问题，我是拔卡的那端，我不会把盘序搞乱

帐号		自动登录	找回密码
密码			注册

LSI RAID/HBA (or OEM)產品(RoC/IOP)集中討論...

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块