[GELÖST] end_request: I/O error, dev sda

Re: end_request: I/O error, dev sda

Beitragvon gehrke » 25.09.2014 05:11

robi hat geschrieben:Ich würde sagen, Platte mal aus allen Raids raus, dann wieder neu rein und Rebuild aller Raids. Dann noch mal SMART anschauen. Wenn der Rebuild durchläuft, sich dort nichts wirklich gravierend großartiges in den SMART Ausgaben verändert hat, hast du noch eine viertel Ewigkeit Freude mit dieser Platte egal ob sie dir die messages vollmüllt oder nicht. (Ich gebe aber keine Garantie auf Glaskugel-Diagnose-Ergebnisse ;-) )

Aktueller Scan:
Code: Alles auswählen
 [root@j4 ~]# smartctl -a /dev/sda
smartctl 5.39.1 2010-01-28 r3054 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model: WDC WD30EZRX-00MMMB0
Serial Number: WD-xxx
Firmware Version: 80.00A80
User Capacity: 3.000.592.982.016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Sep 25 07:05:00 2014 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
 
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
 
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
 was completed without error.
 Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
 without error or no self-test has ever
 been run.
Total time to complete Offline
data collection: (52560) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
 Auto Offline data collection on/off support.
 Suspend Offline collection upon new
 command.
 Offline surface scan supported.
 Self-test supported.
 Conveyance Self-test supported.
 Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
 power-saving mode.
 Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
 General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x3035) SCT Status supported.
 SCT Feature Control supported.
 SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 1311
 3 Spin_Up_Time 0x0027 164 154 021 Pre-fail Always - 8783
 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 183
 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
 9 Power_On_Hours 0x0032 073 073 000 Old_age Always - 19837
 10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
 11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 181
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 98
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 722910
194 Temperature_Celsius 0x0022 114 106 000 Old_age Always - 38
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 066 066 000 Old_age Always - 65535
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 2
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 7

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
 1 0 0 Not_testing
 2 0 0 Not_testing
 3 0 0 Not_testing
 4 0 0 Not_testing
 5 0 0 Not_testing
Selective self-test flags (0x0):
 After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Bislang auch noch keine weiteren Einträge in den Logs.
http://www.youtube.com/watch?v=PpUrMk3g_og (Angriff auf die Freiheit von Ilija Trojanow / Juli Zeh) - let’s encrypt
Benutzeravatar
gehrke
 
Beiträge: 183
Registriert: 20.09.2014 23:03
Wohnort: Münsterland

Re: end_request: I/O error, dev sda

Beitragvon gehrke » 25.09.2014 05:25

http://www.schirmacher.de/display/Linux/Defekte+Festplatten+finden:
Current_Pending_Sector - Die Anzahl Sektoren mit Lesefehlern, die noch nicht ersetzt wurden. Wenn dieser Wert nicht Null ist, muss die Platte neu formatiert werden.

VALUE ist ja unverändert, aber RAW_VALUE liegt nun höher. Bin verunsichert...
http://www.youtube.com/watch?v=PpUrMk3g_og (Angriff auf die Freiheit von Ilija Trojanow / Juli Zeh) - let’s encrypt
Benutzeravatar
gehrke
 
Beiträge: 183
Registriert: 20.09.2014 23:03
Wohnort: Münsterland

Re: end_request: I/O error, dev sda

Beitragvon gehrke » 25.09.2014 18:26

Ergebnis eines langlaufenden Tests (-t long):
Code: Alles auswählen
 smartctl 5.39.1 2010-01-28 r3054 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model: WDC WD30EZRX-00MMMB0
Serial Number: WD-xxx
Firmware Version: 80.00A80
User Capacity: 3.000.592.982.016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Sep 25 20:19:29 2014 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
 was completed without error.
 Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
 without error or no self-test has ever
 been run.
Total time to complete Offline
data collection: (52560) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
 Auto Offline data collection on/off support.
 Suspend Offline collection upon new
 command.
 Offline surface scan supported.
 Self-test supported.
 Conveyance Self-test supported.
 Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
 power-saving mode.
 Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
 General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x3035) SCT Status supported.
 SCT Feature Control supported.
 SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 1311
 3 Spin_Up_Time 0x0027 164 154 021 Pre-fail Always - 8783
 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 183
 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
 9 Power_On_Hours 0x0032 073 073 000 Old_age Always - 19851
 10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
 11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 181
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 98
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 722911
194 Temperature_Celsius 0x0022 114 106 000 Old_age Always - 38
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 066 066 000 Old_age Always - 65535
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 2
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 19847 -
# 2 Extended offline Aborted by host 90% 19838 -
# 3 Extended offline Aborted by host 90% 19838 -

SMART Selective self-test log data structure revision number 1
 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
 1 0 0 Not_testing
 2 0 0 Not_testing
 3 0 0 Not_testing
 4 0 0 Not_testing
 5 0 0 Not_testing
Selective self-test flags (0x0):
 After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Keine weiteren Fehlermeldungen seit dem Rebuild. Ich glaube, mehr kann ich nicht mehr tun, oder? Ansonsten würde ich die Platte unter Beobachtung erst mal im System belassen.
http://www.youtube.com/watch?v=PpUrMk3g_og (Angriff auf die Freiheit von Ilija Trojanow / Juli Zeh) - let’s encrypt
Benutzeravatar
gehrke
 
Beiträge: 183
Registriert: 20.09.2014 23:03
Wohnort: Münsterland

Re: end_request: I/O error, dev sda

Beitragvon robi » 25.09.2014 22:06

Die Platte hat definitiv irgend etwas. So viele schwebende Sektoren sind mit Sicherheit nicht gesund, oder eine totale Falschaussage, Was genau die Platte hat ? ist so schwer bis gar nichts zu sagen. Auch die Firmware scheint hier im SMART Bereich nicht sehr aussagekräftig zu sein. Man könnte noch ein paar Modepages von der Platte auslesen und auswerten, aber das bringt nicht viel mehr als smartctl auch sieht und viel mehr Infos gibt die Platte auch nicht wirklich her, das geht wahrscheinlich unter Linux nur bei SCSI und SAS Platten.

Es gäbe noch eine ganze Reihe von Diagnosemöglichkeiten die man einsetzten könnte um der Sache näher zu kommen. zB mal mit sar "Langzeitbeobachten" und das Geschwindigkeits- und Auslastungsverhältnis zu den anderen 3 Platten vergleichen , oder die Selbsttest von SMART oder des Herstellers usw usw-

Aber so eine Platte kostet heute vielleicht 80€ , wie hoch schätzt ihr den den Stundenlohn eines Spezialisten der hier wirkliche Fehleranalyse vornehmen könnte die auch der Hersteller akzeptieren müsste ????? ;-) Sowas macht niemand, da ist letztlich der Strom den man dabei bei den Tests und Diagnosen verbraucht noch treuer wie gleich eine neue Platte zu kaufen.

Dein Raid ist doppelt abgesichert, beobachte es, aber nimm die Platte heraus bevor die nächste Platte im Raid kaputt geht.

robi
Benutzeravatar
robi
 
Beiträge: 29
Registriert: 20.09.2014 21:39

Re: end_request: I/O error, dev sda

Beitragvon gehrke » 26.09.2014 05:32

robi hat geschrieben:Dein Raid ist doppelt abgesichert, beobachte es, aber nimm die Platte heraus bevor die nächste Platte im Raid kaputt geht.

So wird' s gemacht - Ersatzplatte liegt hier schon bereit.

Herzlichen Dank an alle.
http://www.youtube.com/watch?v=PpUrMk3g_og (Angriff auf die Freiheit von Ilija Trojanow / Juli Zeh) - let’s encrypt
Benutzeravatar
gehrke
 
Beiträge: 183
Registriert: 20.09.2014 23:03
Wohnort: Münsterland

Re: end_request: I/O error, dev sda

Beitragvon gehrke » 26.09.2014 05:36

BTW: Dieser Thread kann als 'Gelöst' markiert werden. AFAIK kann ich das derzeit noch nicht selbst machen, oder?
http://www.youtube.com/watch?v=PpUrMk3g_og (Angriff auf die Freiheit von Ilija Trojanow / Juli Zeh) - let’s encrypt
Benutzeravatar
gehrke
 
Beiträge: 183
Registriert: 20.09.2014 23:03
Wohnort: Münsterland

Re: end_request: I/O error, dev sda

Beitragvon gehrke » 07.10.2015 20:47

gehrke hat geschrieben:
robi hat geschrieben:Dein Raid ist doppelt abgesichert, beobachte es, aber nimm die Platte heraus bevor die nächste Platte im Raid kaputt geht.

So wird' s gemacht - Ersatzplatte liegt hier schon bereit.

Nachtrag nach einem Jahr: Gerade ist mir eine Platte verreckt und vom OS rausgekickt:
Code: Alles auswählen
 Oct 4 19:57:08 j4 kernel: md/raid:md1: Disk failure on sdf1, disabling device.

Und was soll ich sagen - es war nicht die hier besprochene, sondern eine deutlich jüngere. Die hier behandelte Platte läuft tatsächlich immer noch ohne Probleme.
http://www.youtube.com/watch?v=PpUrMk3g_og (Angriff auf die Freiheit von Ilija Trojanow / Juli Zeh) - let’s encrypt
Benutzeravatar
gehrke
 
Beiträge: 183
Registriert: 20.09.2014 23:03
Wohnort: Münsterland

Vorherige

Zurück zu Speichermedien

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron