Volume 1 abgestürzt

patrickbenesch · 21. Dez 2009

Hi mir ist soeben das Volume 1 abgestürzt. Es ist eine Ds 209+II un die Platte ist eine 1000GB Samsung SpinPoint F1 HD103UJ im Basic betrieb. Habe gerade auf eine Externe Festplatte ein Backup gezogen und dann ist sie abgestürzt.

Lesenden Zugriff habe ich noch bin auch schon am Backuppen.
Im Protokoll kamen diese Meldungen:

Error 2009/12/21 20:20:02 admin Read error at md2 disk1 sector 1502000199.
Error 2009/12/21 20:20:01 admin Internal disk [1] was defective.

SMART test ergab Anormalen Status.

Die Datenträger Info sagt folgendes:

Rich (BBCode):

* Dieses Volume kann nicht verwendet werden. Die Daten in diesem Volume wurden möglicherweise beschädigt. Versuchen Sie eine Sicherung Ihrer Daten, bevor Sie das Volume entfernen.

* Wegen der unvollständigen Datenkonsistenz auf diesem Volume ist es jetzt schreibgeschützt. Der Grund hierfür könnten fehlerhafte Sektoren auf der Festplatte sein. Sichern Sie die Daten auf dem Volume, bevor Sie es entfernen, und erstellen Sie ein neues Volume mit einer neuen Festplatte.

* Bitte entfernen Sie die Disk mit dem Status [Abgestürzt].
    
* Seien Sie beim Ausbau der Festplatte vorsichtig. Damit das System normal funktioniert, muss mindestens eine Festplatte den Status [Normal] oder [Initialisiert] haben.

Auszug aus dem Log: (20:20:01 war der Crash)

Rich (BBCode):

Dec 21 20:17:52 kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x
Dec 21 20:17:52 kernel: ata1.00: irq_stat 0x00060002, device error via SDB FIS
Dec 21 20:17:52 kernel: ata1.00: cmd 60/00:00:ef:bb:70/04:00:55:00:00/40 tag 0 n
Dec 21 20:17:52 kernel:          res 41/40:6c:83:be:70/62:01:55:00:00/40 Emask 0
Dec 21 20:17:52 kernel: ata1.00: status: { DRDY ERR }
Dec 21 20:17:52 kernel: ata1.00: error: { UNC }
Dec 21 20:18:28 kernel: ata1.00: read unc at 1501999924
Dec 21 20:18:28 kernel: LBA 1501999924 start 6281415 end 1953520064
Dec 21 20:18:28 kernel: sda3 auto_remap 0
Dec 21 20:18:28 kernel: ata1.00: exception Emask 0x0 SAct 0x5 SErr 0x0 action 0x
Dec 21 20:18:28 kernel: ata1.00: irq_stat 0x00060002, device error via SDB FIS
Dec 21 20:18:28 kernel: ata1.00: cmd 60/00:00:47:b2:86/02:00:59:00:00/40 tag 0 n
Dec 21 20:18:28 kernel:          res 41/40:13:34:b3:86/62:01:59:00:00/40 Emask 0
Dec 21 20:18:28 kernel: ata1.00: status: { DRDY ERR }
Dec 21 20:18:28 kernel: ata1.00: error: { UNC }
Dec 21 20:18:36 kernel: ata1.00: read unc at 1501999770
Dec 21 20:18:36 kernel: LBA 1501999770 start 6281415 end 1953520064
Dec 21 20:18:36 kernel: sda3 auto_remap 0
Dec 21 20:18:36 kernel: ata1.00: exception Emask 0x0 SAct 0x2 SErr 0x0 action 0x
Dec 21 20:18:36 kernel: ata1.00: irq_stat 0x00060002, device error via SDB FIS
Dec 21 20:18:36 kernel: ata1.00: cmd 60/00:08:47:b2:86/02:00:59:00:00/40 tag 1 n
Dec 21 20:18:36 kernel:          res 41/40:ad:9a:b2:86/62:01:59:00:00/40 Emask 0
Dec 21 20:18:36 kernel: ata1.00: status: { DRDY ERR }
Dec 21 20:18:36 kernel: ata1.00: error: { UNC }
Dec 21 20:18:38 kernel: ata1.00: read unc at 1501999687
Dec 21 20:18:38 kernel: LBA 1501999687 start 6281415 end 1953520064
Dec 21 20:18:38 kernel: sda3 auto_remap 0
Dec 21 20:18:38 kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x
Dec 21 20:18:38 kernel: ata1.00: irq_stat 0x00060002, device error via SDB FIS
Dec 21 20:18:38 kernel: ata1.00: cmd 60/00:00:47:b2:86/02:00:59:00:00/40 tag 0 n
Dec 21 20:18:38 kernel:          res 41/40:00:47:b2:86/62:02:59:00:00/40 Emask 0
Dec 21 20:18:38 kernel: ata1.00: status: { DRDY ERR }
Dec 21 20:18:38 kernel: ata1.00: error: { UNC }
Dec 21 20:18:40 kernel: ata1.00: read unc at 1501999690
Dec 21 20:18:40 kernel: LBA 1501999690 start 6281415 end 1953520064
Dec 21 20:18:40 kernel: sda3 auto_remap 0
Dec 21 20:18:40 kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x
- /var/log/messages 750/830 90%
Dec 21 20:18:44 kernel: ata1.00: irq_stat 0x00060002, device error via SDB FIS
Dec 21 20:18:44 kernel: ata1.00: cmd 60/00:00:47:b2:86/02:00:59:00:00/40 tag 0 ncq 262144 in
Dec 21 20:18:44 kernel:          res 41/40:08:3f:b3:86/62:01:59:00:00/40 Emask 0x409 (media error) <F>
Dec 21 20:18:44 kernel: ata1.00: status: { DRDY ERR }
Dec 21 20:18:44 kernel: ata1.00: error: { UNC }
Dec 21 20:18:46 kernel: ata1.00: read unc at 1501999688
Dec 21 20:18:46 kernel: LBA 1501999688 start 6281415 end 1953520064
Dec 21 20:18:46 kernel: sda3 auto_remap 0
Dec 21 20:18:46 kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Dec 21 20:18:46 kernel: ata1.00: irq_stat 0x00060002, device error via SDB FIS
Dec 21 20:18:46 kernel: ata1.00: cmd 60/00:00:47:b2:86/02:00:59:00:00/40 tag 0 ncq 262144 in
Dec 21 20:18:46 kernel:          res 41/40:ff:48:b2:86/62:01:59:00:00/40 Emask 0x409 (media error) <F>
Dec 21 20:18:46 kernel: ata1.00: status: { DRDY ERR }
Dec 21 20:18:46 kernel: ata1.00: error: { UNC }
Dec 21 20:18:46 kernel: Descriptor sense data with sense descriptors (in hex):
Dec 21 20:18:46 kernel: end_request: I/O error, dev sda, sector 1501999935
Dec 21 20:18:46 kernel: read error, md2, sda3 index [0], sector 1502000183 [raid1_end_read_request]
Dec 21 20:18:46 kernel: read error, md2, sda3 index [0], sector 1502000199 [raid1_end_read_request]
Dec 21 20:18:49 kernel: ata1.00: read unc at 1501999943
Dec 21 20:18:49 kernel: LBA 1501999943 start 6281415 end 1953520064
Dec 21 20:18:49 kernel: sda3 auto_remap 0
Dec 21 20:18:49 kernel: ata1.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x0
Dec 21 20:18:49 kernel: ata1.00: irq_stat 0x00060002, device error via SDB FIS
Dec 21 20:18:49 kernel: ata1.00: cmd 60/08:10:3f:b3:86/00:00:59:00:00/40 tag 2 ncq 4096 in
Dec 21 20:18:49 kernel:          res 41/40:00:47:b3:86/00:00:59:00:00/40 Emask 0x409 (media error) <F>
Dec 21 20:18:49 kernel: ata1.00: status: { DRDY ERR }
Dec 21 20:18:49 kernel: ata1.00: error: { UNC }
Dec 21 20:18:53 scemd: modules/raid_data_volume_check.c:984 /volume1 state changes from 0 to 3.
Dec 21 20:19:03 scemd: SCEMD: read error at md2 disk 1 sector 1502000183
Dec 21 20:19:15 scheduler: scheduler.c (1596) Got signal. Die gracefully.
Dec 21 20:19:15 scheduler: scheduler.c (1614) rTorrent is killed.
Dec 21 20:19:19 kernel: ata1: failed to read log page 10h (errno=-5)
Dec 21 20:19:19 kernel: ata1.00: exception Emask 0x1 SAct 0x1f SErr 0x0 action 0x0
Dec 21 20:19:19 kernel: ata1.00: irq_stat 0x00060002, device error via SDB FIS
Dec 21 20:19:19 kernel: ata1.00: cmd 60/f8:00:4f:ee:85/00:00:59:00:00/40 tag 0 ncq 126976 in
Dec 21 20:19:19 kernel:          res 50/00:00:af:6d:70/00:00:74:00:00/e0 Emask 0x1 (device error)
Dec 21 20:19:19 kernel: ata1.00: status: { DRDY }
Dec 21 20:19:19 kernel: ata1.00: cmd 60/08:08:47:ef:85/01:00:59:00:00/40 tag 1 ncq 135168 in
Dec 21 20:19:19 kernel:          res 50/00:00:af:6d:70/00:00:74:00:00/e0 Emask 0x1 (device error)
Dec 21 20:19:19 kernel: ata1.00: status: { DRDY }
Dec 21 20:19:19 kernel: ata1.00: cmd 60/08:10:46:19:4c/00:00:00:00:00/40 tag 2 ncq 4096 in
Dec 21 20:19:19 kernel:          res 50/00:00:af:6d:70/00:00:74:00:00/e0 Emask 0x1 (device error)
Dec 21 20:19:19 kernel: ata1.00: status: { DRDY }
Dec 21 20:19:19 kernel: ata1.00: cmd 60/00:18:4f:f0:85/04:00:59:00:00/40 tag 3 ncq 524288 in
Dec 21 20:19:19 kernel:          res 50/00:00:af:6d:70/00:00:74:00:00/e0 Emask 0x1 (device error)
Dec 21 20:19:19 kernel: ata1.00: status: { DRDY }
Dec 21 20:19:19 kernel: ata1.00: cmd 61/08:20:17:90:01/00:00:00:00:00/40 tag 4 ncq 4096 out
Dec 21 20:19:19 kernel:          res 50/00:00:af:6d:70/00:00:74:00:00/e0 Emask 0x1 (device error)
Dec 21 20:19:19 kernel: ata1.00: status: { DRDY }
Dec 21 20:19:19 kernel: ata1.00: failed to IDENTIFY (I/O error, err_mask=0x1)
Dec 21 20:19:19 kernel: ata1.00: revalidation failed (errno=-5)
Dec 21 20:19:19 kernel: ata1: failed to recover some devices, retrying in 2 secs
Dec 21 20:19:41 kernel: nfsd: last server has exited
Dec 21 20:19:41 kernel: nfsd: unexporting all filesystems
Dec 21 20:19:49 synorcd: hw_raytac.c (126) failed to open /dev/usb/hiddev5 (No such device).
Dec 21 20:19:55 exportfs[8727]: can't open /var/lib/nfs/rmtab for reading
Dec 21 20:20:01 scemd: SYNORemountCrashRaidRo(59) mount -o remount,ro /dev/md2 /volume1
Dec 21 20:20:01 scemd: ScemRefreshDiskLed(446)Disk 1 fail
Dec 21 20:20:02 scemd: SCEMD: read error at md2 disk 1 sector 1502000199
- /var/log/messages 830/830 100%

Volume 2 ist noch intakt.
Wie soll ich nun weiter vorgehen?

Thx schonmal, Patrick

Matthieu · 21. Dez 2009

Backup scheinst du ja zu haben. Dann poste als nächstes mal einen Screenshot der SMART-Werte. Entweder ist das ein Sektorenfehler der durch Low-Level-Editing und Formatieren behoben werden kann, oder die Platte ist ein Garantiefall (sofern noch Garantie ist).

MfG Matthieu

patrickbenesch · 21. Dez 2009

Hi danke für die Antwort

xelarep · 22. Dez 2009

Also wenn ich mir so die Temperaturen anschaue, vermute ich mal die Elektronik der Platte hat einen Hau weg?! => Garantiefall

itari · 22. Dez 2009

Temperaturwerte sind 100-065=35° ... das ist ok

die ECC-recovered Werte (195) und auch 201 sind hässlich

Itari

thedude · 22. Dez 2009

Bei den Hardware ECC Recovered RAW Werten würde ich mir keine Gedanken machen. Gerade bei Samsung Platten. Ich habe bei meinen beiden HD154UI aktuell 8827950 bzw. 2361209. Wikipedia hat auch was zu dem Thema. Bei mir fallen die RAW Werte auch wieder.

Zu den anderen Werten kann ich mangels Erfahrung nix sagen. Hardware ECC Recovered hatte ich halt direkt nach dem Kauf gegoogelt weil mir das spanisch vorkam.

gruss
dude

xelarep · 22. Dez 2009

itari schrieb:
Temperaturwerte sind 100-065=35° ... das ist ok

die ECC-recovered Werte (195) und auch 201 sind hässlich

Itari

OK, ich hab zugegebenermassen erstmal auf die Rohdaten geschaut, und da stehen astronomische Werte. Bei meiner WD stehen hier die Echtdaten in °C

Ebenso der Rohwert für Hardware ECC Recovered sieht sehr merkwürdig aus
Ich bleib bei meiner Meinung

patrickbenesch · 22. Dez 2009

Soll ich jetzt mal das ES Tool drüberlaufen lassen und posten was dieses sagt?

thedude · 22. Dez 2009

xelarep schrieb:
Ebenso der Rohwert für Hardware ECC Recovered sieht sehr merkwürdig aus

Weil?

gruss
dude

cupido · 23. Dez 2009

patrickbenesch schrieb:
Soll ich jetzt mal das ES Tool drüberlaufen lassen und posten was dieses sagt?

Habe so ein ähnliches Problem. Wie kann ich das ES Tool von Samsung mit der DS benutzen?

relix · 10. Jan 2010

Ich habe dasselbe Problem. Bzw ich hatte es eben. Der Vorteil bei diesem Problem ist, daß das Volume ja noch lesbar ist. Und zum Glück ist das Backup auch durchgelaufen.

Ich habe während des Backups eine größere Menge Files über NFS auf das Volume draufkopiert. Vielleicht war das der Grund, weil der Kernel plötzlich inodes auf der Partition gesehen hat, die er in diesem Moment nicht zuordnen konnte, oder wasweißich...

Auf jeden Fall habe ich nach dem Ende des Backups die Syno neu gebootet. Danach war das Problem weg...

Solche Lösungen nerven mich ziemlich, weil man nicht sagen kann, woran es lag und ob das Problem wieder auftritt.

Immerhin habe ich eine Sicherung. Die Paranoia gebietet allerdings, eine zweite Sicherung anzulegen

Werde mir also am Montag noch eine weitere externe Platte kaufen.

latti · 23. Mrz 2010

cupido schrieb:
Habe so ein ähnliches Problem. Wie kann ich das ES Tool von Samsung mit der DS benutzen?

habe das selbe problem...

platte abgestürzt und habe keine ahnung wie ich die daten retten kann.

könnte das mit einem USB platten dock funktionieren?

habe leider keine möglichkeit meine platte hier direkt in einen rechner einzubauen, da nur notebook und imac.

besten dank und gruss

relix · 23. Mrz 2010

Hallo latti,
Der syno-Support konnte mir bei diesem Problem leider nicht wirklich helfen. Syno hat mir empfohlen, das gesamte Volume neu anzulegen, samt RAID und alles, was aber bedeutet hätte, daß ich über eine Vollsicherung gehen hätte müssen. Das war mir alles etwas riskant. Was ich gemacht habe: fsck auf dem md2-Device. Das hat es dann behoben.

Wichtige Frage voraus:
a) Kannst Du dich einloggen? SSH oder Telnet?
b) kannst Du ein "cd" auf das Verzeichnis /volume1 machen? Also in das mh2-Volume hinein? -> Ist dieses Volume lesbar? Wenn ja, Sicherung machen! Das geht, indem Du eine USB-Platte ansteckst. Entweder Du machst das mit dem Befehl rsync oder ganz einfach mit cp -R.
c) Dann mußt Du alle Prozesse abschießen, die auf das md2 zugreifen. Das Ziel ist, das mh2 zu un-mounten
d) Sobald das Ding geunmountet ist, kannst Du einen fsck machen. Hier besteht zwar grundsätzlich die Gefahr, daß inodes verändert werden, aber das ist besser als ein totaler Datenverlust und dürfte nur ein paar wenige Dateien betreffen.

Die Befehle dazu stehen hier im Thread, ggf. poste ich sie noch mal. Kommst Du mit diesen Hinweisen zurecht?

Greez relix

latti · 24. Mrz 2010

Hi Relix

Vielen Dank für deine Hilfe!

relix schrieb:
a) Kannst Du dich einloggen? SSH oder Telnet?

Hat funktioniert. So wie es aussieht ist noch alles auf der Platte. ufff...

(für andere newbies, damit ihr nicht auch suchen müsst:
- erst im webinterface des synology NAS SSH aktivieren
- dann mit dem befehl "ssh xxx.xxx.xxx.xxx -l admin" einloggen. die "x" stehen für die IP des NAS. Von Vorteil ist auch, wenn man das root-passwort zur hand hat)

relix schrieb:
b) kannst Du ein "cd" auf das Verzeichnis /volume1 machen? Also in das mh2-Volume hinein? -> Ist dieses Volume lesbar? Wenn ja, Sicherung machen! Das geht, indem Du eine USB-Platte ansteckst. Entweder Du machst das mit dem Befehl rsync oder ganz einfach mit cp -R.

Muss mir im dem Fall noch eine USB-Platte kaufen morgen.

Könntest du mir bitte ein Beispiel-Befehl für rsync zeigen. Habe bedenken, dass ich die USB-Platte problemlos ansteuern werden kann.

relix schrieb:
c) Dann mußt Du alle Prozesse abschießen, die auf das md2 zugreifen. Das Ziel ist, das mh2 zu un-mounten

wie schiesse ich andere dienste ab?

relix schrieb:
d) Sobald das Ding geunmountet ist, kannst Du einen fsck machen. Hier besteht zwar grundsätzlich die Gefahr, daß inodes verändert werden, aber das ist besser als ein totaler Datenverlust und dürfte nur ein paar wenige Dateien betreffen.

Gehe ich richtig der Annahme, dass ich dann die Platte wieder formatieren kann und wieder brauchen kann?

////////

Grundsätzlich ist die ganze Sache bei mir aber schon komisch. Platte funktionierte bis anhin problemlos. Als ich dann mal einen SMART-Test gemacht habe, um zu sehen ob die Platte gesund ist, war das Teil dann Annormal und abgestürzt.
Habe ich da was falsch gemacht oder einfach nur Pech gehabt, wegen bösem Zufall?

Nochmals vielen Dank und Gruss

Latti

relix · 24. Mrz 2010

rsync:
Naja, zuerst mußt Du mal die Backup-Platte mounten. Das geht normalerweise automatisch. Dann wird ein zweiter Mountpoint angelegt, der /volume_USB1 oder so ähnlich heißt. Wenn dieser Mountpoint existiert, paßt alles. Du kannst es mit dem Befehl "mount" oder "df" prüfen.

cp -R /volume1 /volume_USB1

oder

rsync -av /volume1 /volume_USB1

Leider gibt es auf der Syno keine Man-Pages. Per Google findet man aber alles.

Wenn die Platte hardwaremäßig OK ist, solltest Du sie wieder verwenden können. Post mal den SMART-Output. Was sagt das Ding? Wie gehts der Platte? Du kannst auch ein Support-Ticket bei Syno aufmachen, die sagen Dir dann auch, ob Du die Platte weiterbenutzen kannst.

Prozesse abschießen: Erst mal die Prozeßtabelle ausgeben, das machst Du mit "ps". Jetzt ist es aber ein bisserl schwierig, freiweg zu sagen, welche Prozesse Du abschießen kannst und welche nicht.

Poste mal die Liste...

Umounten kannst Du ein Device mit "umount -f /dev/md2" oder entsprechend. Wenn das Unmounten funktioniert, kannst Du mit fsck drübergehen. Aber das gehen wir Schritt für Schritt an.

Greez
relix

latti · 25. Mrz 2010

vielen dank für die hilfe relix!

bis auf wenige dateien konnte alles gerettet werden. bin wirklich sehr froh.

relix schrieb:
Wenn die Platte hardwaremäßig OK ist, solltest Du sie wieder verwenden können. Post mal den SMART-Output. Was sagt das Ding? Wie gehts der Platte? Du kannst auch ein Support-Ticket bei Syno aufmachen, die sagen Dir dann auch, ob Du die Platte weiterbenutzen kannst.

also nach eine erweiterten SMART-Test bekam die Werte, welche du in den angehängten JPGs siehst.

Was mich etwas verwirrt, dass bei den SMART Infos alles ok ist aber trotzdem von schwerwiegenden Fehlern die Rede ist.

Da ich noch Garantie habe, wäre es wohl am einfachsten, das Teil zu taschen. Was meinst du?

latti · 28. Mrz 2010

noch eine anmerkung. im system protokoll tauchten vor der neuinstallation der platte noch solche fahelr auf, wie in der angehängten datei.

und nun wie gesagt die aktuellen smart status berichte im vorderen post.

ich weiss nicht mehr weiter...

Suche

Volume 1 abgestürzt

patrickbenesch

Benutzer

Matthieu

Benutzer

patrickbenesch

Benutzer

xelarep

Benutzer

itari

Benutzer

thedude

Benutzer

xelarep

Benutzer

patrickbenesch

Benutzer

thedude

Benutzer

cupido

Benutzer

relix

Benutzer

latti

Benutzer

relix

Benutzer

latti

Benutzer

relix

Benutzer

latti

Benutzer

Anhänge

latti

Benutzer

Anhänge

Kaffeautomat