ich habe ein sehr merkwürdiges Problem:
Auf unserem Moodle-Server wurde heute der Speicherplatz verflucht knapp. Die Ausgabe von df ergab:
/dev/md2 1888127576 1734825940 57320168 97% /
Das ist insofern merkwürdig, weil vor einer Woche 20% mehr Speicher da waren !
Ein völlig inakzeptabler Zustand !!! Habe sofort alles in den Wartungsmodus geschaltet, gesucht, ob Speicherfresser da sind, habe mit moosh Kurse gelöscht - da stieg der Speicherbedarf noch einmal an. Dann die Papierkörbe unter Moodle gelöscht - wenig Änerung.
Jetzt habe ich einen meiner eigenen speicherintensiven Kurse gelöscht - und auf EINMAL zeigt df das an:
/dev/md2 1888127576 1362132808 430013300 77% /
Frage: Was könnte dies verursacht haben ?
Räumt Moodle auf diese Weise sein „Moodledata“ auf ? Beim Löschen ?
Oder hatte mein RAID einen Einfluss ?
Haben diese Zeilen aus dem dmesg etwas zu bedeuten ?
…
[ 62.726969] md/raid1:md1: active with 1 out of 2 mirrors
[ 62.727070] md1: detected capacity change from 0 to 535822336
[ 62.727158] md/raid1:md0: active with 1 out of 2 mirrors
[ 62.727272] md0: detected capacity change from 0 to 34325135360
[ 62.727802] md/raid1:md2: active with 1 out of 2 mirrors
[ 62.735360] md2: detected capacity change from 0 to 1965364936704
…
Habt Ihr da eine Erklärung ?
Ach ja, das md2 ist ein einfaches ext4, ge-mirrort !
Hi. Ich hatte beim letzten Aufräumen mit moosh etwas beobachtet, was evtl in eine ähnliche Richtung geht: das Server Backup war riesig, Platte war fast voll. Mit moosh aufgeräumt, Platte wurde ordentlich leer geräumt aber das Backup war weiterhin genau so groß wie zuvor! Dann den Support gefragt wie das sein kann. Antwort: Server neu starten, und es dann nochmal versuchen. Und siehe da: Plattenplatz war wieder da und das Backup war wieder klein. Ich vermute, dass da noch irgendwelche tmp Dateien lagen!??
cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md2 : active raid1 sda3[0]
1919301696 blocks super 1.2 [2/1] [U_]
bitmap: 15/15 pages [60KB], 65536KB chunk
md0 : active raid1 sda1[0]
33520640 blocks super 1.2 [2/1] [U_]
md1 : active raid1 sda2[0]
523264 blocks super 1.2 [2/1] [U_]
mdadm -D /dev/md1
/dev/md1:
Version : 1.2
Creation Time : Fri May 22 17:14:31 2020
Raid Level : raid1
Array Size : 523264 (511.00 MiB 535.82 MB)
Used Dev Size : 523264 (511.00 MiB 535.82 MB)
Raid Devices : 2
Total Devices : 1
Persistence : Superblock is persistent
Update Time : Sun Feb 28 12:05:20 2021
State : clean, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0
Consistency Policy : resync
Name : rescue:1
UUID : 95993e82:0866f960:027a66d7:ce3eb074
Events : 279
Number Major Minor RaidDevice State
0 8 2 0 active sync /dev/sda2
- 0 0 1 removed
Interessanter für mich die eigentliche Partition:
mdadm -D /dev/md2
/dev/md2:
Version : 1.2
Creation Time : Fri May 22 17:14:32 2020
Raid Level : raid1
Array Size : 1919301696 (1830.39 GiB 1965.36 GB)
Used Dev Size : 1919301696 (1830.39 GiB 1965.36 GB)
Raid Devices : 2
Total Devices : 1
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Feb 28 20:16:17 2021
State : active, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0
Consistency Policy : bitmap
Name : rescue:2
UUID : 46e0a276:0566df0c:fd8d3bf1:228d125b
Events : 1895278
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
- 0 0 1 removed
Das Ding steht in Schweden bei Hetzner.
Bedeuten bei dem md2 die Angaben, dass die Festplatte hardwaremäßig bereits herausgenommen („removed“) wurde ?
Oder wurde sie nur aus dem Softwareverbund des RAID removed, weil sie kaputt ist ?
Ruft man da dann bei Hetzner an - oder merken die selbst, wenn etwas in dieser Weise kaputt ist ? Es ist ja kein Hardware-Raid ?
die Platte muss nicht ausgebaut sein.
In so einem Fall installiert man die smartmontools und schaut mit
smartctl -a /dev/sdX
nach, was die Platte den so über sich selbst meint.
mir sieht das danach aus, dass die Festplatte /dev/sda funktioniert und /dev/sdb nicht mehr funktioniert. Deshalb werden die Smartmontools nichts zu der Festplatte auswerfen.
Ich habe tatsächlich nichts mit den smartmontools außerhalb dev/sda herausbekommen - vermutlich wegen des RAIDS, das man mit --device=irgendwas zwar mit angeben kann, aber ich kenne den device-Namen nicht, mdX hat nicht funktioniert.
Jetzt gibt es bei Hetzner eine Art Helpdesk, da kann man einen Festplattentausch anstoßen - das habe ich mithilfe der mdadm-Werte getan. Hoffentlich tauscht der Techniker die richtige Platte aus…
heute nacht haben die bei Hetzner eine neue Festplatte eingesetzt - soweit, so gut.
Ein smartctl /dev/sdb zeigt, dass sie ordnungsgemäß funktioniert.
Aber der rebuild-Prozess hat wohl nicht automatisch eingesetzt:
Ein
cat /proc/mdstat
liefert:
]cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sda1[0]
33520640 blocks super 1.2 [2/1] [U_]
md2 : active raid1 sda3[0]
1919301696 blocks super 1.2 [2/1] [U_]
bitmap: 15/15 pages [60KB], 65536KB chunk
md1 : active raid1 sda2[0]
523264 blocks super 1.2 [2/1] [U_]
und ein:
mdadm --detail /dev/md2
liefert:
/dev/md2:
Version : 1.2
Creation Time : Fri May 22 17:14:32 2020
Raid Level : raid1
Array Size : 1919301696 (1830.39 GiB 1965.36 GB)
Used Dev Size : 1919301696 (1830.39 GiB 1965.36 GB)
Raid Devices : 2
Total Devices : 1
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Mon Mar 1 08:56:55 2021
State : active, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0
Consistency Policy : bitmap
Name : rescue:2
UUID : 46e0a276:0566df0c:fd8d3bf1:228d125b
Events : 1964885
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
- 0 0 1 removed
Was muss ich tun, um den rebuild-Prozess anzustoßen ? /dev/sdb auf „faulty“ setzen ?
Sollte man das vielleicht nur nachts tun, um die vielen Zugriffe auf moodle nicht zu erschweren ?
habe eben mit der Anleitung von Dir und einer von Hetzner den rebuild-Prozess begonnen…proc/mdstat zeigt entsprechend zu erwartende Fortschrittswerte an.
Ich bin durchaus etwas aufgeregt und hoffe, dass alles gut geht.
ich hatte kürzlich auch ein defektes Raid auf einem Linuxmuster-Server. Ich habe es daran gemerkt, dass das Übertragen eines Image per multicast relativ lange dauerte und die Übertragungsrate stark schwankte.
Das Problem ist dann immer die richtige Festplatte zu lokalisieren. Aber die Smartmontools sind Dein Freund ;-).