"df" liefert merkwürdige Werte!

Cgsman · 28. Februar 2021 um 12:12

Hallo,

ich habe ein sehr merkwürdiges Problem:
Auf unserem Moodle-Server wurde heute der Speicherplatz verflucht knapp. Die Ausgabe von df ergab:

/dev/md2 1888127576 1734825940 57320168 97% /

Das ist insofern merkwürdig, weil vor einer Woche 20% mehr Speicher da waren !

Ein völlig inakzeptabler Zustand !!! Habe sofort alles in den Wartungsmodus geschaltet, gesucht, ob Speicherfresser da sind, habe mit moosh Kurse gelöscht - da stieg der Speicherbedarf noch einmal an. Dann die Papierkörbe unter Moodle gelöscht - wenig Änerung.

Jetzt habe ich einen meiner eigenen speicherintensiven Kurse gelöscht - und auf EINMAL zeigt df das an:

/dev/md2 1888127576 1362132808 430013300 77% /

Frage: Was könnte dies verursacht haben ?
Räumt Moodle auf diese Weise sein „Moodledata“ auf ? Beim Löschen ?
Oder hatte mein RAID einen Einfluss ?

Haben diese Zeilen aus dem dmesg etwas zu bedeuten ?
…
[ 62.726969] md/raid1:md1: active with 1 out of 2 mirrors
[ 62.727070] md1: detected capacity change from 0 to 535822336
[ 62.727158] md/raid1:md0: active with 1 out of 2 mirrors
[ 62.727272] md0: detected capacity change from 0 to 34325135360
[ 62.727802] md/raid1:md2: active with 1 out of 2 mirrors
[ 62.735360] md2: detected capacity change from 0 to 1965364936704
…

Habt Ihr da eine Erklärung ?
Ach ja, das md2 ist ein einfaches ext4, ge-mirrort !

Liebe Grüße
Christoph

liv_uo · 28. Februar 2021 um 12:48

Hallo Christoph,
ohne tiefere Kenntnisse von RAID zu haben, scheint aus meiner Sicht dort ein Problem vorzuliegen.

VG Andre

alois · 28. Februar 2021 um 17:18

Hallo Christoph,

wenn es ein Software-Raid ist. Was sagt

cat /proc/mdstat

Gruß

Alois

Michael · 28. Februar 2021 um 18:20

Hi. Ich hatte beim letzten Aufräumen mit moosh etwas beobachtet, was evtl in eine ähnliche Richtung geht: das Server Backup war riesig, Platte war fast voll. Mit moosh aufgeräumt, Platte wurde ordentlich leer geräumt aber das Backup war weiterhin genau so groß wie zuvor! Dann den Support gefragt wie das sein kann. Antwort: Server neu starten, und es dann nochmal versuchen. Und siehe da: Plattenplatz war wieder da und das Backup war wieder klein. Ich vermute, dass da noch irgendwelche tmp Dateien lagen!??

hth,
Michael

Cgsman · 28. Februar 2021 um 19:19

Hallo, lieber Alois,

in der Tat sind wohl Festplatten kaputt !!!

Guckst Du hier:

cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] 
md2 : active raid1 sda3[0]
      1919301696 blocks super 1.2 [2/1] [U_]
      bitmap: 15/15 pages [60KB], 65536KB chunk

md0 : active raid1 sda1[0]
      33520640 blocks super 1.2 [2/1] [U_]
      
md1 : active raid1 sda2[0]
      523264 blocks super 1.2 [2/1] [U_]
mdadm -D /dev/md1

/dev/md1:
           Version : 1.2
     Creation Time : Fri May 22 17:14:31 2020
        Raid Level : raid1
        Array Size : 523264 (511.00 MiB 535.82 MB)
     Used Dev Size : 523264 (511.00 MiB 535.82 MB)
      Raid Devices : 2
     Total Devices : 1
       Persistence : Superblock is persistent

       Update Time : Sun Feb 28 12:05:20 2021
             State : clean, degraded 
    Active Devices : 1
   Working Devices : 1
    Failed Devices : 0
     Spare Devices : 0

Consistency Policy : resync

              Name : rescue:1
              UUID : 95993e82:0866f960:027a66d7:ce3eb074
            Events : 279

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       -       0        0        1      removed


Interessanter für mich die eigentliche Partition:
mdadm -D /dev/md2
/dev/md2:
           Version : 1.2
     Creation Time : Fri May 22 17:14:32 2020
        Raid Level : raid1
        Array Size : 1919301696 (1830.39 GiB 1965.36 GB)
     Used Dev Size : 1919301696 (1830.39 GiB 1965.36 GB)
      Raid Devices : 2
     Total Devices : 1
       Persistence : Superblock is persistent

     Intent Bitmap : Internal

       Update Time : Sun Feb 28 20:16:17 2021
             State : active, degraded 
    Active Devices : 1
   Working Devices : 1
    Failed Devices : 0
     Spare Devices : 0

Consistency Policy : bitmap

              Name : rescue:2
              UUID : 46e0a276:0566df0c:fd8d3bf1:228d125b
            Events : 1895278

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       -       0        0        1      removed

Das Ding steht in Schweden bei Hetzner.
Bedeuten bei dem md2 die Angaben, dass die Festplatte hardwaremäßig bereits herausgenommen („removed“) wurde ?
Oder wurde sie nur aus dem Softwareverbund des RAID removed, weil sie kaputt ist ?

Ruft man da dann bei Hetzner an - oder merken die selbst, wenn etwas in dieser Weise kaputt ist ? Es ist ja kein Hardware-Raid ?

Gruß
Christoph

alois · 28. Februar 2021 um 20:01

Hallo Christoph,

es sieht so aus als würde die Festplatte resynct.

Normalerweise zeigt cat /proc/mdstat auch den Fortschritt an.

Gruß

Alois

baumhof · 28. Februar 2021 um 20:05

Hallo,

die Platte muss nicht ausgebaut sein.
In so einem Fall installiert man die smartmontools und schaut mit
smartctl -a /dev/sdX
nach, was die Platte den so über sich selbst meint.

LG

Holger

alois · 28. Februar 2021 um 20:16

Hallo Holger,

mir sieht das danach aus, dass die Festplatte /dev/sda funktioniert und /dev/sdb nicht mehr funktioniert. Deshalb werden die Smartmontools nichts zu der Festplatte auswerfen.

Ich würde Hetzner anrufen.

Gruß

Alois

Cgsman · 28. Februar 2021 um 20:44

Ok, Ihr beiden,
vielen Dank !

Ich habe tatsächlich nichts mit den smartmontools außerhalb dev/sda herausbekommen - vermutlich wegen des RAIDS, das man mit --device=irgendwas zwar mit angeben kann, aber ich kenne den device-Namen nicht, mdX hat nicht funktioniert.
Jetzt gibt es bei Hetzner eine Art Helpdesk, da kann man einen Festplattentausch anstoßen - das habe ich mithilfe der mdadm-Werte getan. Hoffentlich tauscht der Techniker die richtige Platte aus…

Danke für Eure Hilfe!

Gruß
Christoph

alois · 28. Februar 2021 um 20:50

Hallo Christoph,

wie ich schon sagte sdb ist kaputt.

Gruß Alois

alois · 28. Februar 2021 um 20:57

Hallo Christoph,

wie viele Betriebsstunden hat denn sda? Das würde mich einfach so mal interessieren!

Gruß Alois

Cgsman · 28. Februar 2021 um 21:18

Hi, Alois,
laut smartctl 282 Tage (6760 Betriebsstunden).
L.G.
Christoph

alois · 28. Februar 2021 um 21:21

Hallo Christoph,

das ist kein Alter für eine Festplatte. Ich habe hier welche die haben über 60000 Betriebsstunden. Die sind aber nicht mehr produktiv im Einsatz.

Gruß

Alois

Cgsman · 1. März 2021 um 07:58

Hallo -
erstmal danke, Alois, denn:

heute nacht haben die bei Hetzner eine neue Festplatte eingesetzt - soweit, so gut.
Ein smartctl /dev/sdb zeigt, dass sie ordnungsgemäß funktioniert.

Aber der rebuild-Prozess hat wohl nicht automatisch eingesetzt:

Ein 

cat /proc/mdstat

liefert:
]cat /proc/mdstat 
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] 
md0 : active raid1 sda1[0]
      33520640 blocks super 1.2 [2/1] [U_]
      
md2 : active raid1 sda3[0]
      1919301696 blocks super 1.2 [2/1] [U_]
      bitmap: 15/15 pages [60KB], 65536KB chunk

md1 : active raid1 sda2[0]
      523264 blocks super 1.2 [2/1] [U_]
      
und ein:

mdadm --detail /dev/md2

liefert: 

/dev/md2:
           Version : 1.2
     Creation Time : Fri May 22 17:14:32 2020
        Raid Level : raid1
        Array Size : 1919301696 (1830.39 GiB 1965.36 GB)
     Used Dev Size : 1919301696 (1830.39 GiB 1965.36 GB)
      Raid Devices : 2
     Total Devices : 1
       Persistence : Superblock is persistent

     Intent Bitmap : Internal

       Update Time : Mon Mar  1 08:56:55 2021
             State : active, degraded 
    Active Devices : 1
   Working Devices : 1
    Failed Devices : 0
     Spare Devices : 0

Consistency Policy : bitmap

              Name : rescue:2
              UUID : 46e0a276:0566df0c:fd8d3bf1:228d125b
            Events : 1964885

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       -       0        0        1      removed

Was muss ich tun, um den rebuild-Prozess anzustoßen ? /dev/sdb auf „faulty“ setzen ?
Sollte man das vielleicht nur nachts tun, um die vielen Zugriffe auf moodle nicht zu erschweren ?

Wa schlagt Ihr da vor ?

Liebe grüße
Christoph

alois · 1. März 2021 um 08:04

Hallo Christoph,

schau mal hier:

https://wiki.linuxmuster.net/archiv/version3:swraid_rebuild

Gruß Alois

alois · 1. März 2021 um 19:57

Hallo Christoph,

bist Du weiter gekommen?

Gruß

Alois

Cgsman · 2. März 2021 um 01:18

Hallo, Alois,

habe eben mit der Anleitung von Dir und einer von Hetzner den rebuild-Prozess begonnen…proc/mdstat zeigt entsprechend zu erwartende Fortschrittswerte an.
Ich bin durchaus etwas aufgeregt und hoffe, dass alles gut geht.

L.G.
Christoph

alois · 2. März 2021 um 05:56

Hallo Christoph,

danke für die Rückmeldung. Das wird gut gehen. Die Anleitung ist m. W. von Holger.

Viele Grüße Alois

Cgsman · 2. März 2021 um 06:23

Heute Morgen läuft alles -

und die zwei [UU]s machen mich glücklich!

Benefit: Die Erkenntnis, dass die Anzeige schwankender df-Werte auf kaputte discs im RAID1 hinweisen kann.

L.G.
Christoph

alois · 2. März 2021 um 06:27

Hallo Christoph,

ich hatte kürzlich auch ein defektes Raid auf einem Linuxmuster-Server. Ich habe es daran gemerkt, dass das Übertragen eines Image per multicast relativ lange dauerte und die Übertragungsrate stark schwankte.

Das Problem ist dann immer die richtige Festplatte zu lokalisieren. Aber die Smartmontools sind Dein Freund ;-).

Gruß

Alois