Linbo Neu+Start dauert "plötzlich" ewig

Hallo Thomas,
danke schon mal für die Antworten. Ich habe heute mal den linbo Kernel auf 6.5.7 aktualisiert. Leider sind die Probleme mit unserer NVME SSD dadurch nicht gelöst.
Ich habe aber ein paar Logs erzeugt:
https://nextcloud.elektronikschule.de/index.php/s/XGyaeQ4KjofJzYb

Soll ich das an support@linuxmuster.net zusätzlich noch schicken, oder reicht das hier im Forum?
VG
Steffen

Hallo Steffen,

Zeilen wie
Buffer I/O error on dev nvme0n1p3, logical block 11540921, lost async page write
in der Ausgabe von dmesg deuten lt. Suchmaschine auf defekte Sektoren hin.
Das sollte zuerst ausgeschlossen werden, bevor man Linbo die Schuld gibt.

VG, Thomas

Hallo Thomas,
Steffen hatte die Crucial NVME SSDs vorher mit linbo 4.0 ohne Probleme verwendet und er hat inzwischen, um Hardwarefehler aus zu schließen, die SSD getestet: „Heute habe ich mal partedMagic gestartet und mit dd das qcow2 Image von der Cache Partition in die für Windows vorgesehene Partition kopiert. Ziel war es herauszufinden, ob beim Kopieren von großen Datenmengen auch der Zustand eintritt, dass irgendwann Schreib-/Lesefehler auftreten wie beim Entpacken des qcow2 Images unter Linbo.
Ergebnis: mit dd wurden 22GB in 35 Sekunden fehlerfrei kopiert.“
Insofern können wir annehmen, dass es sich nicht um Hardwarefehler handelt.

@Steffen: vielen Dank, dass du dich da so rein hängst: die allerwenigsten stellen sich eine eigene Buildumgebung her um mal einen neueren kernel zu testen.
Ich betreibe, wenn ich Freitag wieder Zuhause bin, mal Nachforschungen, was es so zu nvme und kernel >=6.2 Problemen zu finden gibt, vielleicht auch in Verbindung mit Crucial.
Ich erinnere, aus den Anfängen der SSDs (also SATA SSDs), dass ein Freund für seine Schule 50 Kingston SSDs gekauft hatte: genau die gleichen wie ich hatte, weil er dann davon ausgehen konnte, dass sie funktionieren… hat natürlich nicht geklappt damals.
Er gab mir eine und ich habe sie untersucht: auf der SSD stand die Firmwareversion. Ich hab sie mit denen meiner SSDs verglichen: sie war neuer. Ich hab die ganz aktuelle Firmware drauf gespielt: dann gingen auch die wieder. Ich glaub nicht, dass es genau das bei dir ist :slight_smile:

LG

Holger

1 „Gefällt mir“

Hallo Holger,

darf ich Dir auch meine SSDs schicken? :wink:

Liebe Grüße,
Jochen

Hallo Holger,
vielen Dank für Eure Unterstützung. Wir sollten nur nicht zu viel Zeit investieren für ein doch möglicherweise sehr spezielles (Hardware)Problem. Auf Deine Aussage hin hat mein Kollege noch ein Tool von crucial gefunden um die Firmware zu aktualisieren und Fehler auslesen zu können. Das werden wir auch nochmal testen.
Die PCs werden maximal noch zwei oder drei Jahre laufen, und die neue Generation Rechner, die wir schon im Haus haben laufen ja wunderbar. Im Notfall probieren wir einen Downgrade von linbo aus. @thomas : damit möchte ich auf keinen Fall eine Schuldzuweisung Richtung linbo machen. Ich kann mir nämlich auch kein besseres System an der Schule vorstellen als Linuxmuster. Die NVMe SSDs machen ja ein thermal throttling und wir haben ein Update von 7.1 auf 7.2 gemacht als es draußen kalt wurde und die Räume wieder beheizt wurden. Wer weiß… Vielleicht weit hergeholt … aber ein witziger Gedanke :wink:
Die nächsten Tage gönne ich mir aber erstmal eine Auszeit. Ich melde mich ab dem 6.11. wieder.
VG
Steffen

1 „Gefällt mir“

Alles gut. Das neue Linbo-Release kann jetzt zusätzliche Firmware integrieren (siehe Lmn 7.2 testing - #504 von thomas). Im Falle deiner Hardware ist die Firmwaredatei i915/kbl_dmc_ver1_04.bin anzugeben. Evtl. hilfts ja.

VG, Thomas

Hallo Thomas,
gestern habe ich mit meinem Kollegen eine lange try-and-error-session gemacht. Ich versuche das mal nachvollziehbar zusammenzufassen.

  1. Wir haben nochmal aktualisiert und sind nun bei Linbo Version 4.2.2
  2. Der Eintrag für die Intel i915 dmc Firmware bringt den Erfolg, dass die Warnmeldung im Log verschwindet.
  3. Das Problem an den Dell3060 Rechnern mit den von uns eingebauten Crucial NVMe 1TB Riegeln besteht aber weiterhin. Problembeschreibung: Das Entpacken des qcow2 Images vom Cache in die zugehörige Partition bricht mit einem Schreibfehler ab. Danach ist keinerlei Partition auf dem NVMe Riegel mehr verfügbar, selbst beim Versuch manuell zu mounten. Es hat den Anschein, dass der Riegel keine Verbindung mehr zum Controller hat. Erst nach einem Neustart des Rechners ist er wieder verfügbar.
  4. Partitionierung, Formatierung, Cachepartition aktualisieren funktioniert einwandfrei. Auch ein von USB Stick installiertes Betriebssystem läuft einwandfrei.
  5. Wir haben gestern zwei weitere NVMe Riegel von anderen Herstellern in den Dell 3060 Rechnern getestet. Diese haben einwandfrei funktioniert. Wir konnten den Fehler auch beim Kreuztausch der Riegel über drei Rechner hinweg reproduzieren. Der Fehler ist eindeutig mit dem Crucial NVMe „mitgewandert“.

Daher würden wir unseren Verdacht nochmal bekräftigen, (auch auf Basis von Holgers Erfahrung mit den SSDs von seinem Kollegen) dass hier eine seltsame Inkompatibilität zwischen dem Crucial NVMe Riegel und dem Intel Controller besteht, oder ein Timingproblem oder irgendwas in dieser Art. Auf ein Timingproblem bei den Schreib-Lese-Vorgängen könnte man schließen, weil wir auch einen Rechner hatten, bei dem drei mal das Zurückspielen des Images nicht funktioniert hatte und beim vierten mal auf einmal doch.
@baumhof : Hi Holger. Wir haben das Crucial NVMe Tool ausprobiert um die Riegel zu überprüfen. Die neueste Firmware ist schon installiert und verschiedene Tests ergaben keine Fehler.

Was wir uns überhaupt nicht erklären können ist, warum wir mit dem Linbo in der Version 4.0.24 diese 140 Rechner ohne das oben beschriebene Problem nutzen konnten. Aber da stecke ich überhaupt nicht drin um nur ansatzweise eine Idee zu haben warum das so ist.

Um die 140 NMVe Riegel jetzt nicht in die Tonne zu schmeißen hätte ich noch zwei Optionen.

  1. Downgrade des Linbo von 4.2.2 auf 4.0.24. Da bräuchte ich aber Deine Expertise und Dein Wissen ob das so einfach möglich ist, sinnvoll ist oder ob da Probleme mit Abhängigkeiten auftreten die nicht lösbar sind. Nachteil davon wäre halt auch, dass ich nach jedem Update wieder ein Downgrade von Linbo machen müsste. Das wäre aber verkraftbar.
  2. Ein anderer Kollege von mir hat auf Github noch was Interessantes gefunden:
    Dell OptiPlex 3060 - Enable NVMe Gen 3 speeds (Enable PCIe 3.0) · GitHub
    Das klingt verlockend und ich liebe hardwarenahe Programmierung. Da hat es natürlich einen großen Anreiz mal ein paar Bits auf Registerebene zu ändern :grinning:
    Wenn es sich also tatsächlich um ein Timingproblem zwischen NVMe Riegel und Controller handelt, wäre das ein Versuch, auch wenn der Rechner nachher gar nicht mehr geht :yum:
    Nachteil hier: wenn das erfolgreich wäre, müsste ich an 140 Rechnern das BIOS verbiegen. Wenn man das als Überstunden anrechnet, brauche ich nächstes Jahr nicht mehr in die Schule :upside_down_face:

Viele Grüße
Steffen

Hallo Steffen,

Was wir uns überhaupt nicht erklären können ist, warum wir mit dem Linbo
in der Version 4.0.24 diese 140 Rechner ohne das oben beschriebene
Problem nutzen konnten.

… da hab ich eine Theorie zu: der kernel in linbo 4.0 ist sehr viel älter.
Neuere Kernel reizen die Hardware besser aus: vorallem „neue“, also nvme
Geräte: und schon fallen ungereimtheiten in Firmwares oder
kompatibilitätsprobleme eher auf.
Der jetzige 6.9er Kernel ist halt „cutting Edge“.
Normalerweise wird sowas dann gelößt durch eine neue Firmware oder einen
neuen Kernel, der das Problem eben umschifft.

… habt ihr mal so eine nvme ssd in einen andern Rechner eingebaut?
Ihr könnt nicht zufällig die 140 SSDs in andere Rechner einbauen? :slight_smile:
(könnte ja sein).

Ansonsten: vielelicht gibt es kernel Parameter, die bei nvme z.B.
Stromsparmechanismen im Kernel ausschalten: ich könnte mir vorstellen,
dass es sowas sein könnte.

LG

Holger

Grüß Dich Holger,
Danke für Deine Antwort.
Wir haben gestern tatsächlich auch mal einen Kreuztausch der NVMe Riegel gemacht zwischen den alten Dell3060 mit den Crucial NVMe und unserer neusten Rechner Dell Optiplex 5000 mit xioxo (oder so ähnlich) NVMe. Die Crucials im Optiplex 5000 haben da auch nicht funktioniert, der Fehler war aber ein anderer. Das Entpacken des qcow2 Images ging am Anfang recht zügig bis ca. 25%. dann wurde er immer langsamer und blieb schlussendlich bei 99,06% stehen, bis ich das nach einer Stunde dann abgebrochen habe. Dafür war der andrere Riegel im Dell 3060 wahnsinnig schnell, also ich würde sagen knappe drei mal schneller als der Crucial, und natürlich ohne Fehler.

Liebe Grüße
Steffen

Hallo Steffen,
in deinen Logs steht dP******g! drinnen. Solltest du ändern.
Warum speichert Linbo das im Log eigentlich mit?

Du nutzt die Option noapic. Gibt es dafür einen Grund?
Hast du es auch schon mit acpi=off oder pcie_aspm=off versucht?

Viele Grüße
Christian

Hi!

Ich schau mal, wie ich ermöglichen kann, alternative Kernel zu verwenden.

VG, Thomas

Hallo Thomas,

das wäre super!
Wir haben heute auch nochmal etwas getestet (z.B. Update auf Linbo 4.2.2). Nicht so ausführlich wie Steffen aber auch bei uns gibt es nach wie vor ziemliche Probleme. Wir haben jedoch wie oben geschrieben, Gigabyte-NVMe-SSDs, so dass es nicht nur die Crucials zu betreffen scheint. Auf AMD- und Intel-Rechnern.
Neu+Start des Windows-Images, welches mit Linbo 4.0.x noch problemlos funktionierte und wenige Minuten dauerte (ca. 7min), dauert mit Linbo 4.1 und 4.2.2 nun fast anderthalb Stunden und bricht oft mit i/o-errors ab.

Viele Grüße,
Jochen

P.S.: Ralf nimmt mal ein Corpus Delicti mit nach Essen, vielleicht könnt Ihr Euch an dem mal abarbeiten :wink:

Hallo Steffen,

habe das noch gefunden: Solid state drive/NVMe - ArchWiki
Evtl. hilft dieser Kernelparameter:
nvme_core.default_ps_max_latency_us=0

VG, Thomas

1 „Gefällt mir“

Moin!

Testet mal den 5.15er-Kernel: Lmn 7.2 testing - #540 von thomas

VG, Thomas

1 „Gefällt mir“

Hallo Thomas,

vielen Dank für Deine Mühe!!! Wir werden morgen gleich testen und berichten.

Liebe Grüße,
Jochen

Hallo @thomas ,

vielen Dank für Dein Engagement und die neuen Linbo-Versionen!
Ich habe auf Linbo 4.2.6 upgedated und in der custom_kernel sowohl den legacy- als auch den longterm-Kernel ausprobiert.
Mit beiden ziehen nun alle HW-Klassen ein neues Image wieder mit >100MB/s! :grinning:

Leider synct die eine HW-Klasse nach wie vor so extrem langsam. :disappointed_relieved:
Weißt Du, welchen Kernel Linbo in der LMN 7.1 bzw. Linbo 4.1.x verwendet hat und wir diesen für Linbo einbauen können?

Auch den o.g. Kernel-Parameter haben wir getestet, bringt leider auch keine Änderung.

Vielen Dank und viele Grüße,
Jochen

Hallo Jochen,

in Linbo 4.1.36 wurde Kernel 6.5.3 verwendet. Dessen Konfiguration habe ich für den 6.6.1 in 4.2 übernommen und noch die WLAN-Treiber ergänzt. Ich kann die 6.5er-Konfiguration nochmal nach 6.6 migrieren, um auszuschließen, dass dabei irgendwas kaputt ging.
Ansonsten kannst du den 6.5er-Kernel aus Linbo 4.1.36 rauskopieren und über custom_kernel einbinden. WLAN ist dann halt nicht.

VG, Thomas

Hallo Thomas,
erst mal vielen Dank für Deinen super schnellen Support und … außerdem bist Du unser persönlicher Held :star_struck: … denn es scheint bei uns jetzt zu funktionieren.
Wir nutzen jetzt Kernel 5.15.138 Unsere neueste HW-Klasse (Dell Optiplex 5000) zeigt kein anderes Verhalten als mit den verschiedenen Kernel zuvor und funktionieren also einwandfrei. Die Problem HW-Klasse (Dell 3060 mit den Crucial NVMe) läuft jetzt durch. Das Entpacken des Images dauert zwar geringfügig länger als zuvor (also mit Linbo 4.0.24) aber für uns völlig in Ordnung. Die Fortschrittsanzeige läuft recht zügig bis 99% durch und bleibt da dann noch knapp 10 Minuten hängen. Für ein 22GB Image benötigen wir ca. 18 Minuten. Beim Kernel 6.1.62 ist das Verhalten ähnlich. Aber wie gesagt, für uns ein schöne Lösung unseres Problems.
Achja, die Kernelparameter sind auch weniger geworden. Die Realtek NIC läuft jetzt ohne das wir die r8169 blacklisten müssen. Der Kernelparameter „nvme_core.default_ps_max_latency_us=0“ hatte zuvor keine Besserung gebracht. Aber ein sehr Interessanter Artikel, den Du da im Netz gefunden hast.

Viele Grüße
Steffen

1 „Gefällt mir“

Hallo Steffen,

sehr gut! :grinning: Danke für die Rückmeldung.

VG, Thomas

Hallo Christian,
ne Woche um zu antworten… da muss ich schneller werden :smirk:
Passwort ist geändert, hatte ich aber auch nicht erwartet, dass ein Passwort in einem Log protokolliert wird.
Warum nutzen wir noapic??? Keine Ahnung, aber eine Vermutung.
Es ist eine gewachsene Struktur, irgend jemand hatte es mal eingetragen und haben es immer wieder übernommen ohne drüber nachzudenken.
Habe noapic mal in einer HW-Klasse entfernt. Beim Booten bekomme ich Warnmeldungen
platform eisa.0 cannot allocate resource for eisa slot 1
Das muss ich aber noch nachprüfen, ob das miteinander zusammen hängt, weil ich ein paar andere Änderungen auch noch gemacht habe.
Die anderen beiden Bootoptionen, welche Du erwähnt hattest habe ich nicht getestet. Mit der Lösung von Thomas, dass ich den Kernel jetzt selber auswählen kann, hat ja schon eine Lösung gebracht. Aber für die Ferien wäre das nochmal eine Option zum testen, wobei ich hier wenig Erfolg sehe.

Viele Grüße
Steffen