„Plötzlich und unerwartet“ kein Internet

Kein Rechner im Schulnetz kommt ins Internet.

Merkwürdig ist:
Komme zwar (immerhin) per remote desktop (anydesk) von Zuhause auf das Notebook, von dem ich auf den Proxmox-Server zugreife. Aber das Notebook selbst wiederum kommt nicht ins Internet. Auf das Dashboard von OPNSense komme ich auch nicht.

Der Versuch, die VM OPNSense über das WebIF von Proxmox neu zu starten, scheitert.

Frage mich, ob womöglich Logdatei voll/übergelaufen ist.
Komme aber nicht per ssh an OPNSense, um nachzuschauen, was los ist:
ssh: connect to host 10.0.0.254 port 22: Connection timed out

Wollte ein screenshot erstellen via anydesk [Aktionen/Bildschirmfoto erstellen]
weiß aber nicht, wie ich danach an den screenshot rankomme.

Daher den Inhalt der Console abgetippt (Auszug):

(da0:vtscsi0:0:0:1): Retrying command (per sense data)
(da0:vtscsi0:0:0:1): READ(6). CDB: 08 00 00 4f 01 00
(da0:vtscsi0:0:0:1): CAM status: SCSI Status Error
(da0:vtscsi0:0:0:1): SCSI status: Check Condition
(da0:vtscsi0:0:0:1): SCSI sense: ABORTET COMMAND asc 0.6 (I/O process terminated)
(da0:vtscsi0:0:0:1): Error 5, Retries exhausted

und dann

pid 6… (lighttp), jid 0, uid 0: exited on signal 11
pid 9… (ntpd), jid 0, uid 0: exited on signal 11
pid 2… (filterlog), jid 0, uid 0: exited on signal 11
pid 1… (unbound), jid 0, uid 59: exited on signal 11
pid 4… (dhclient), jid 0, uid 65: exited on signal 11
pid 3… (dhclient), jid 0, uid 0: exited on signal 11
pid 3… (dhclient), jid 0, uid 0: exited on signal 11
pid 7… (dhcpd), jid 0, uid 136: exited on signal 11
pid 6… (getty), jid 0, uid 0: exited on signal 11
pid 5… (sshd), jid 0, uid 0: exited on signal 11

Demnach laufen insbesondere Dienste wie Webserver (lightttp), DNS (unbound) und ssh nicht, was den ssh time out erklärt und warum ich nicht mehr auf das Dashboard komme.

Bevor ich nun Proxmox kalt runterfahre (in der Hoffnung, dass OPNSense nach Neustart wieder fehlerfrei läuft): hat jemand eine Idee, was man zuvor noch unternehmen kann?

Grüße
ersin

Hallo ersin,

Hast du keinen Zugriff auf die Proxmox Oberfläche ?
Wenn ja, per VNC/Console hat man Zugriff auf eine OPNsense Console und schauen ob die Platte dort voll ist.
Und wenn da nichts mehr läuft würde ich nur OPNSense neu starten.

Gruß

Arnaud

Definitiv volle Festplatte, siehe andere Threads dazu (Logeinstellungen und Festplatte vergrößern).
LG
Max

Hallo Arnaud,

die VNC/Console ist derzeit der einzige Zugriff, Bildschirminhalt s.o.
Bloß, die Console reagiert nicht – das Bild scheint festgefroren.
Deshalb kann ich auf diesem Wege keinen Neustart aufrufen (der scheitert).

Was mich wundert ist, dass ich überhaupt noch von außen via remote desktop auf das Notebook komme. Und selbst das auch nur mit Anydesk.
Rustdesk hingegen meldet: Entfernter Desktop ist Offline.

Natürlich kann ich Proxmox neu starten, was (zwangsläufig) die beiden VMs (OPNSense & Server Linuxmuster) und LNX-Container (WLAN) runter fährt.

Wollte aber erfahren, was ich vor diesem doch drastischen Schritt noch tun kann.
Sieht aber ganz danach aus, dass ich um diesen Schritt nicht herumkomme.

Grüße, ersin

Hallo Ersin,

Ich gehe auch davon aus dass die Festplatte voll ist.

Abhilfe : Logrotation auf Firewall

Viele Grüße Alois

Hallo Max,

Danke für den Hinweis/Bestätigung. Den Verdacht, dass Platte voll/überlaufen ist, hatte ich eingangs erwähnt. Und zwar so voll, dass ich nicht mal die VM oder etwa den LNX-CT (WLAN) neu starten kann. Werde morgen: Proxmox runterfahren, Platte vergrößern und dann neu starten.

Grüße, ersin

Hallo Ersin,

denk daran, dass auch das Dateisystem erweitert werden muss. Da gibt’s einige Threads dazu im OPNsense-Forum.

Viele Grüße, Jochen

Hallo Jochen,

Könntest Du dahin den einen oder anderen Link posten?

Viele Grüße

Alois

Hallo Jochen,

Habs gefunden:

https://forum.opnsense.org/index.php?topic=19250.msg94608#msg94608

Die Anleitung unter dem Link funktioniert wohl!

Viele Grüße

Alois

Hallo Ersin,

wie groß ist dein Pool und hast du in ihm mehr als 80% des Platzes vergeben. Wenn ja, das sollte bei ZFS nicht praktiziert werden. Zumindest ist das bei mir im Hinterstübchen hängen geblieben.

Beste Grüße

Thorsten

Hallo,

Achtung: Aufpassen. Bei uns heißen die Laufwerke ggf. anders und wir haben - wegen UEFI -mehr Partitionen.

deshalb vorher ein gpart show -p absetzen um zu erfahren wie die Festplatte heist und welche Partition vergrößert werden muss.

Hier da0 und die Partition da0p3

root@firewall:~ # gpart show -p
=>      40  67108784    da0  GPT  (32G)
        40    532480  da0p1  efi  (260M)
    532520      1024  da0p2  freebsd-boot  (512K)
    533544  49798144  da0p3  freebsd-ufs  (24G)
  50331688  16777136  da0p4  freebsd-swap  (8.0G)

Viele Grüße

Alois

Hallo zusammen,

Anmeldung an LMN & Internet geht wieder, die 1TB-NVMe-SSD wird von Proxmox wieder erkannt, die beiden VMs für Firewall und LMN starten fehlerfrei. Es hat sich alles in Wohlgefallen aufgelöst.

Des Rätsels Lösung ist ein weiteres Beispiel aus der Kategorie der gut versteckten Fehler, wie ich sie hier und hier kommentiert habe, weshalb ich auch diese Erfahrung hier teile.

Tatsächlich war „die Platte voll“ wie ich ja selbst und viele andere vermutet hatten
(Danke an dieser Stelle für die vielen Anregungen).

Aber es war eine andere vollgelaufene Platte: Während für LXC & VM eine 1TB-SSD zu Verfügung steht, läuft der host mit Proxmox selbst auf einer eigenen kleinen 256 GB SSD, wovon normalerweise nur ca. 15GB genutzt werden. Aber sie war diesmal mit 99,x % vollgelaufen. Der Grund war eine (versehentlich) nicht eingehängte USB-HDD für Backup. Und so landeten die backups der VMs statt auf der externen USB-Platte local auf dem host auf /media/usbdrive.

Bei diesem extrem hohen Füllstand zeigte Proxmox ein merkwürdiges Verhalten: es erkannte irgendwann (plötzlich) die 1TB-SSD nicht mehr, woraufhin natürlich Firewall und LMN nicht mehr korrekt liefen.

Die Lösung:

  • Backups in /media/usbdrive (local) gelöscht, danach war der Füllstand wieder bei ~ 6%.
  • host mit Proxmox runtergefahren,
  • im BIOS gecheckt, ob die 1TB-NVMe-SSD erkannt wird,
  • neu hochgefahren – und alles war wieder in Ordnung.

PS. werde künftig die externe USB-HDD via Autofs mounten, damit bei Zugriff automatisch ein- und nach einem timeout wieder ausgehängt wird.

Grüße, sino

Hallo,

dieses heimtückische Ding: „der mountpoint läuft voll - und eben nicht die backupplatte“ :worried: ist mir auch schon passiert. Gut, dass man über dieses Forum mal wieder daran erinnert wird…

Grüßle
Christoph

Apropos: Wir haben einen hetzner Server, auf dem unsere Moodle Instanzen laufen. Hier kann es passieren, dass aufgrund zu vieler Updates einfach die Boot-Partition voll läuft - und das kann bedeuten, dass dieser Server nicht mehr startet. Ein übles Problem - man sitzt ja nicht davor…

Hallo,

Deswegen finde ich wichtig ein Monitoringssystem zu nutzen, wie Nagios und Icinga.
Es ist nicht kompliziert per NRPE das Status von ferne Server zu überwachen und kann in solche Fälle wirklich helfen Zeit und Katastrophe zu sparen.

Gruß

Arnaud

1 „Gefällt mir“