POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: per1-q1222
打印 上一主题 下一主题

LSI RAID/HBA (or OEM)產品(RoC/IOP)集中討論...

  [复制链接]
1801#
发表于 2013-10-7 21:02 | 只看该作者
per1-q1222 发表于 2013-10-7 20:57
sorry..
最近很忙..
一時沒辦法上線...[sweat>

H800有问题?
回复 支持 反对

使用道具 举报

1802#
 楼主| 发表于 2013-10-7 21:22 | 只看该作者
本帖最后由 per1-q1222 于 2013-10-7 21:24 编辑
luomax 发表于 2013-10-7 21:02
H800有问题?

快速根據你的log來看...
我看到了以下資訊...
09/30/13 16:31:30: EVT#01599-09/30/13 16:31:30: 113=Unexpected sense: Encl PD 0a Path 500c04f25f0f603d, CDB: 1c 01 00 00 20 00, Sense: 6/29/00
09/30/13 16:31:30: Raw Sense for PD a: 70 00 06 00 00 00 00 0b 00 00 00 00 29 00 00 00 00 00 00
09/30/13 16:31:30: SES_GenericCallback: enclPd=a...RDM_STATUS =2 retries: 0
09/30/13 16:31:30: Cmd Details: 1c 01 00 00 20 00
09/30/13 16:31:30: CDB: 1c 01 00 00 20 00 00 00 00 00 00 00 00 00 00 00  LEN=6

09/30/13 16:31:30: Sense Data at: 80520240
09/30/13 16:31:30: responseCode: 70      valid: 0      segmentNumber: 0      senseKey: 6      ili: 0     eom: 0     filemark: 0    information: 0     additionalSenseLength: b       commandSepcificInfo: 0         asc: 29         ascq: 0        fruCode: 0     sksv: 0        fieldPointer: 0
09/30/13 16:31:30: SES_GenericCallback: enclPd=a...RDM_STATUS =1 retries: 1
09/30/13 16:31:30: Cmd Details: 1c 01 00 00 20 00
09/30/13 16:31:30: SES General Error on EnclPd:a  sts:1  RetryCount:1  msg:80520200  txfrAddr:8429f3a0
09/30/13 16:31:30: Dell slot Offset = 0
這是一個SES error...
這個跟硬件相容性比較有關係...
印象這個是無解...
我曾經向LSI問過這個error...

其他的我還要在花點時間看..
有點多..
你之前提供的截圖是這塊的??
回复 支持 反对

使用道具 举报

1803#
发表于 2013-10-7 23:13 | 只看该作者
per1-q1222 发表于 2013-10-7 21:22
快速根據你的log來看...
我看到了以下資訊...
09/30/13 16:31:30: EVT#01599-09/30/13 16:31:30: 113=U ...

老大,你就说怎么解决嘛
回复 支持 反对

使用道具 举报

1804#
 楼主| 发表于 2013-10-8 00:24 | 只看该作者
本帖最后由 per1-q1222 于 2013-10-8 00:26 编辑
luomax 发表于 2013-10-7 23:13
老大,你就说怎么解决嘛

我沒辦法給你這個問題的解決方式..
因為這很像是硬件相容性觸發的問題..

我從log最後發現到這個情況..
09/30/13 16:31:30: SES General Error on EnclPd:a  sts:1  RetryCount:1  msg:80520200  txfrAddr:8429f3a0
09/30/13 16:31:30: Dell slot Offset = 0
09/30/13 16:31:30: EVT#01600-09/30/13 16:31:30: 167=Enclosure PD 0a(c 00/p0) communication restored
09/30/13 16:31:30: EVT#01601-09/30/13 16:31:30: 243=Enclosure PD 0a(c 00/p0) fan 1 speed changed
09/30/13 16:31:30: EVT#01602-09/30/13 16:31:30: 243=Enclosure PD 0a(c 00/p0) fan 2 speed changed
09/30/13 16:31:30: EVT#01603-09/30/13 16:31:30: 243=Enclosure PD 0a(c 00/p0) fan 3 speed changed
09/30/13 16:31:30: EVT#01604-09/30/13 16:31:30: 243=Enclosure PD 0a(c 00/p0) fan 4 speed changed
09/30/13 16:31:30: EVT#01605-09/30/13 16:31:30: 176=Enclosure PD 0a(c 00/p0) EMM 1 removed

我看到這個SES錯誤引發EMM通訊異常整個被踢掉...
可以的話使用lsigetwin提供更詳細的報告...
因為在這個情況下tty log的資訊變得很有限...

有限的情況只能試著刷新HDD的f/w...
如果是DELL的OEM盤試著刷新...

SES error是我前年在intel sas expander遭遇到的問題...
當時我覺得這可能是HDD引發的問題...
因為我是用WD的DELL OEM盤(FYYG SAS 6Gb/s 1TB)...
我問LSI, 他給我的答覆就是叫我換硬件...
那時我試著刷HDD固件, 一直刷不進(在固件檢測階段出錯, HDD沒有整個報銷)...

這個問題隨著我更換RAID HBA(LSISAS2208)並且一直刷新固件後..
已經沒再看到這個error了

現階段我只能建議你提供lsigetwin的腳本報告...
http://mycusthelp.info/LSI/_cs/A ... QIINWSIHUWCMYHYKPAD

老兄覺得麻煩的話, 那就再觀察一段時間...
回复 支持 反对

使用道具 举报

1805#
发表于 2013-10-8 08:48 | 只看该作者
per1-q1222 发表于 2013-10-8 00:24
我沒辦法給你這個問題的解決方式..
因為這很像是硬件相容性觸發的問題..

大概明白了,万分感谢
回复 支持 反对

使用道具 举报

1806#
发表于 2013-10-8 13:59 | 只看该作者







P大,  我是 5块普通希捷1TB  做 RAID5   ,系统放阵列里面的

前段时间要重启几次才能进系统, 之后就像现在提示这样子了,  

卡住进不去了。   

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

1807#
 楼主| 发表于 2013-10-8 18:43 | 只看该作者
尛帥 发表于 2013-10-8 13:59
P大,  我是 5块普通希捷1TB  做 RAID5   ,系统放阵列里面的

前段时间要重启几次才能进系 ...

關機一段時間後..
再重開機看看
回复 支持 反对

使用道具 举报

1808#
发表于 2013-10-9 11:26 | 只看该作者
per1-q1222 发表于 2013-10-7 20:54
主要就是數據壓縮...[glare>

数据压缩?

类似EMC他们的重复数据删除??
回复 支持 反对

使用道具 举报

1809#
发表于 2013-10-9 19:09 | 只看该作者
最近想买块9211,我在淘宝上看到基本上有350左右(说是国内造的),450保一年,500保三年 3种。就想问下500保三年这种会是lsi原装卡么?还是依然是拆机/OEM刷的?
回复 支持 反对

使用道具 举报

1810#
发表于 2013-10-10 10:11 | 只看该作者
XDQ 发表于 2013-10-9 19:09
最近想买块9211,我在淘宝上看到基本上有350左右(说是国内造的),450保一年,500保三年 3种。就想问下500 ...

500保3年,应该是原装的
我朋友买过一块,正常使用
回复 支持 反对

使用道具 举报

1811#
 楼主| 发表于 2013-10-10 10:46 | 只看该作者
本帖最后由 per1-q1222 于 2013-10-10 10:46 编辑
leko 发表于 2013-10-9 11:26
数据压缩?

类似EMC他们的重复数据删除??

這部分沒有太多文件資訊..
也許可能是基於自家開發的DVC技術...
回复 支持 反对

使用道具 举报

1812#
发表于 2013-10-10 10:54 | 只看该作者
leko 发表于 2013-10-10 10:11
500保3年,应该是原装的
我朋友买过一块,正常使用

500 怎會是原装的.
国外原装卡卖2000.
回复 支持 反对

使用道具 举报

1813#
 楼主| 发表于 2013-10-13 00:41 | 只看该作者
本帖最后由 per1-q1222 于 2013-10-13 00:43 编辑

前幾天其他網站的網兄遭遇案例...
http://www.pcdvd.com.tw/showthread.php?t=1027389&page=1&pp=10
bad block發生..
請問這個 bad strips 發生的原因是什麼?
是硬體故障還是操作不當?
他一開始更新韌體的時候先把硬碟拔掉,更新完發現卡有問題,換一塊卡之後發現一顆硬碟失效,rebuild 之後就有 bad strips 了。
"他一開始更新韌體的時候先把硬碟拔掉,更新完發現卡有問題,換一塊卡之後發現一顆硬碟失效,rebuild 之後就有 bad strips 了。"
其實行為上太過草率...
當然這有可能是很多MIS的標準操作...
那個換個方向思考..
他們在進行替換之前都在幹甚麼??...
定期的維護計畫呢???

對方有沒有進行定期的操作..?
1. CC
2. Disk Scrubbing(Media Scans or Patrol Read..)
敢做有無能力看h/w log??? 解析sense code??
從你的截圖來看應當是adaptec體系...
我對這體系的產品幾乎不熟.....
向來我是西瓜餵大邊.......
我摸過幾款, 但是我從來沒仔細玩這家的東西..
要知道記憶command是很累的事.....

請問這個 bad strips 發生的原因是什麼?
是硬體故障還是操作不當?
最好的方式請他提供h/w log(不是event log喔...那東西我覺得沒啥好看的..)...
雖然我認為他們可能拿不出來或著不願意提供(HBA都被換掉了..)...

可能有一種情況可以解釋...
bad block先前就存在了...
只是RAID f/w操作的過程中剛好被掃到...

"他一開始更新韌體的時候先把硬碟拔掉,更新完發現卡有問題,換一塊卡之後發現一顆硬碟失效,rebuild 之後就有 bad strips 了。"
我不太清楚更新硬體幹嘛要把HDD全拔了??..
對adaptec的core IP這麼沒自信???..

一種可能的情況...
建好的VD,關機後將PD進行抽換這是注意的行為...
slot number與原先不符就等於metadata與先前的完全不一致..
在LSI體系我看過2~3個案例都是這樣...
拔掉HDD插回去, VD掛掉...
因為metadata完全不一致, 順序都不同了...
怎麼可能一致??!..
OAR(Online Array Roaming)和ODR(Online Drive Roaming)盡量切勿衝突...
這有可能干涉metadata...

匹配性的操作盡量如下注意:
1. 盡可能不要破壞HDD的順序性, 因為這會牽涉到metadata的一致以及stripping的順序
2. 透過HSP操作rebuild完, metadata就100%保證不一致. 這時MIS就不能直接擺著跑下去(請不要偷懶.., 掛了幾乎沒有MIS有能力去算stripe的順序性...)..
應當盡可能找時間取得新的HDD替換原來故障的HDD, 這表示可能一段時間. RAID f/w會立即操作copyback..(SSD的copyback在LSI稱為SSD Guard..),
以匹配原始的metadata. 這種HSP操作稱為revertable HSP..
3. OAR(Online Array Roaming)是可以允許的, 這幾乎是商品的必要條件. 但是要注意一點. 替換HBA後, HDD的順序請與原先的一致
ex:
before===>after
s1 -> s1
s2 -> s2
4. ODR(Online Drive Roaming)是一種可以允許原先的HBA使HDD順序"亂"換重新在維護metadata...
但是切勿盡量與替換的HBA衝突, 因為這是OAR與ODR的衝突...
有可能觸發metadata非一致性..
近代RAID系統除了"某幾家"之外, 皆有提供NVSRAM的設計, 我印象adaptec和LSI應該都是32KB左右. 這個東西有幾種作用.
a. write-journaling以建立checkpoint. 這功能有時會發揮關鍵性的作用.
b. 存放metadata和config, 這裡的metadata用以維護VD上的metadata. 因此原先的HBA隨意替換順序, 應該都不受影響. 當然更換HBA情況就不同了...
c. block change tracking, LSI沒做這功能. adaptec我不太清楚..
d. h/w logging, it's very important!!....really........靠這個曾經拯救我好幾次..

關於bad srtipe部分, RAID f/w會盡可能操作scan和remapping(correcting)...
時常可能會進入deep scan的情況, 如果HDD對於ERC的容忍度幾乎為0...
沒多久就是kick-out...

bad stripe發生後, 有沒有可能後續修復..?
這是有可能的..
1. 直接CC和Media Scan, 看有沒有機會修復VD, 之後再進行替換...
2. 將bad block的HDD進行替換, 再做一次rebuild賭看看...

rebuild過後的bad stripe有時意謂某些情況(可能性的! 要看廠商有沒有做..)
有一種特殊的行為稱為 刺穿, 當一個bad block在rebuild過程中發生時, 依然有辦法繼續進行下去.
對於parity RAID mode會是這樣做..
d?=p1 XOR d1 XOR d2 XOR d3 XOR ..dx XOR dy(bad->soft)..XOR dn
dy是一個bad block, 但是RAID f/w為了維持穩定性...
錯誤的dy依然會繼續操作下去..., 結果取出的d?就是錯的data block...
這種操作為了穩定性是不得已的(至少VD盡可能避免掛掉)...,
LSI在logging上會明顯標示這種行為性的發生...
回复 支持 反对

使用道具 举报

1814#
发表于 2013-10-13 16:36 | 只看该作者
zyzs 发表于 2013-9-18 15:57
按原理,掉的盘数据是旧的,强制上线后运行cc修复,应该是当前raid的数据恢复到failed盘里
我实际遇到的 ...

zyzs,给我一下你chkdsk后面跟的参数,谢谢,我。。。也遇到了。。。强制online一块盘,结果,我之前盘上做的一些变更,也回来了,甚至有目录打不开了,天。。。
回复 支持 反对

使用道具 举报

1815#
发表于 2013-10-15 09:43 | 只看该作者
本帖最后由 jackswei 于 2013-10-15 09:45 编辑

我在10/10 也遇到 不小心 輕撞到電腦,2顆offine ,一個vb offine ,後重開
強制online 後 再重開 我的55t 二個 分割區 無去開啟(點了,會問我要不要格式化),我再重開 win7 自動做 chkdsk (做了一天後),再開進去看,全部資料 無法讀,
現在不敢動了,找時間送去 osslab 救資料,不知可回機成,快哭了 ,這......

p大 log檔。
發生在 10/10/13 19:47:00

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

1816#
 楼主| 发表于 2013-10-15 12:42 | 只看该作者
本帖最后由 per1-q1222 于 2013-10-15 12:47 编辑
jackswei 发表于 2013-10-15 09:43
我在10/10 也遇到 不小心 輕撞到電腦,2顆offine ,一個vb offine ,後重開
強制online 後 再重開 我的55t ...

請聯繫我..
讓我快速判讀你的問題...
理應上你掉盤後..
應該是甚麼行為都不可以做...
立即反應至討論區..

回复 支持 反对

使用道具 举报

1817#
发表于 2013-10-15 20:09 | 只看该作者
本帖最后由 jackswei 于 2013-10-15 20:21 编辑

來不及了,當時看到55t 的二個磁區都打不開,重開後 就讓win7做chkdsk ,做完後 進去win7 我就知 掛了(沒一個檔開的起來),就關機 拆下了,找時間送 osslab 看要多少錢再決定。以前直接強制 online 都沒關題的,誰知 這一次 就...

當學教訓了,這些大多是bdrip、dvdrip 的動畫 收集了七年,現在 還在思考 值不值的花錢救而以。一想心血...

當時傻了,好像有clean raid 組態,然後重建組態 不初始化後,連原本好的 vd 也都無法讀了,看的到分割區,最重要的資料 尚未chkdsk 的四顆r5 已送osslab 了。我以前 有幹過這種事 ,都正常,怎麼這一次 就掛了,組態的stripe size 我都用256k 只有27t 的才用512k,也是原封不動設回去,印像中 。當時發生這種事 ,真的變笨了。


回复 支持 反对

使用道具 举报

1818#
发表于 2013-10-17 10:23 | 只看该作者
本帖最后由 尛帥 于 2013-10-17 10:25 编辑



P大, 一直卡在这个界面。。。

很难进去系统啊。

是卡出问题了么?

之前用都挺好的,我是 5块普通希捷1TB  做 RAID5   ,系统放阵列里面的

10月5号之后就开始出现这界面了,  经常重启几十次才能进去。

昨天到今天都没能进去系统。

卡的bios界面也进不去。。。

只能进主板的bios界面
回复 支持 反对

使用道具 举报

1819#
发表于 2013-10-17 11:37 | 只看该作者
尛帥 发表于 2013-10-17 10:23
P大, 一直卡在这个界面。。。

很难进去系统啊。

看英文提示
是否卡的温度过高?
但是刚开机,9260的温度不会太高才对
回复 支持 反对

使用道具 举报

1820#
发表于 2013-10-17 12:33 | 只看该作者
尛帥 发表于 2013-10-17 10:23
P大, 一直卡在这个界面。。。

很难进去系统啊。

我一般拔掉所有盘,看看会不会报missing盘什么的,至少知道卡还能识别到盘,不知道我的操作对不对,至少我盘插上去之后,都不会有问题,我是拔卡的那端,我不会把盘序搞乱
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-4-23 02:15

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表