USV <----> Server steht

Hi. Wir haben unseren Server unter Proxmox an einer USV hängen. Vor einiger Zeit geschah es ein paar Mal, dass aus heiterem Himmel alles stand und demzufolge im gesamten grünen/blauen Netz nichts mehr ging. Daraufhin haben wir das Server-Netzteil getauscht und jetzt einen echt dicken Brumer eingebaut, der alles locker ziehen müsste.

Leider ist aber heute ohne erkennbaren Grund wieder der Fall eingetreten, dass der Server aus war, als ich gerufen wurde. Man kann ihn dann immer völlig problemlos neu starten. Es wird auch nicht über Dateisysteme gemeckert, die nicht ordnungsgemäß heruntergefahren wurden.

Der Server hängt an einer USV mit apcupsd (USB-Kabel). Diese USV meldet aus unerfindlichen Gründen öfter mal:

Communications with UPS Smart_UPS_1000_USB lost

und kurz darauf dann:

Communications with UPS Smart_UPS_1000_USB restored

Da ich in den Log-Dateien keine Ursache für den Stillstand des Servers finden kann, habe ich nun die USV in Verdacht. Wir hatten das Thema ja hier schon öfter und es gibt ja durchaus Stimmen, die meinen, dass man auf eine USV komplett verzichten kann. Ich frage mich dennoch, wie ihr das Teil so konfiguriert habt, dass folgendes Szenario abgedeckt ist:

  • Bei Stromausfall springt die USV ein und kann ca 10 Min überbrücken (Normalfall).

  • Wenn der Strom schnell genug wieder da ist, bleibt der Server an (ist das ebenfalls per default so?).

  • Wenn es eine längere Unterbrechung gab, soll der Server konrolliert alle VMs herunterfahren und sich schlafen legen.

  • Wenn dann aber der Strom wieder kommt, sollte er auch automatisch wieder hochfahren!

Ich vermute, dass (mind.) der letzte Punkt bei uns nicht richti konfiguriert ist. Habt ihr unter /etc/apcupsd noch irgendwelche Anpassungen vorgenommen oder wie ist das bei euch eingestellt?

Wenn jemand eine andere Ursache für dieses Verhalten im Visier hat, passt das natürlich auch in diesen Thread…

Hallo Michael,

Der Server hängt an einer USV mit apcupsd (USB-Kabel). Diese USV meldet
aus unerfindlichen Gründen öfter mal:

|Communications with UPS Smart_UPS_1000_USB lost|

und kurz darauf dann:

|Communications with UPS Smart_UPS_1000_USB restored|

hab ich auch gelegentlich mal. Restore immer in der darauf folgenden Minute.

Allerdings heißt meine Meldung

proxmox Power Failure !!!

Da ich in den Log-Dateien keine Ursache für den Stillstand des Servers
finden kann, habe ich nun die USV in Verdacht. Wir hatten das Thema ja
hier schon öfter und es gibt ja durchaus Stimmen, die meinen, dass man
auf eine USV komplett verzichten kann. Ich frage mich dennoch, wie ihr
das Teil so konfiguriert habt, dass folgendes Szenario abgedeckt ist:

Bei Stromausfall springt die USV ein und kann ca 10 Min überbrücken
(Normalfall).
Wenn der Strom schnell genug wieder da ist, bleibt der Server an
(ist das ebenfalls per default so?).
Wenn es eine längere Unterbrechung gab, soll der Server konrolliert
alle VMs herunterfahren und sich schlafen legen.
Wenn dann aber der Strom wieder kommt, sollte er auch automatisch
wieder hochfahren!

Wir hatten einmal das Problem, dass der Server aufgrund eines defekten
Akkus nicht mehr mit Strom versorgt wurde, obwohl die Netzspannung gar
nicht ausgefallen war.

Seitdem hängt ein Kabel des redundanten Netzteils nicht mehr an der USV
sondern direkt an der Steckdose.

Das automatische Wiederhochfahren sobald wieder Strom da ist hat nichts
mit der USV zu tun. Du musst im Server-BIOS „resume on power on“ aktivieren.

Das erinnert mich daran, dass ich das auch nicht eingestellt habe. Ist
bei uns aber auch nicht schlimm, weil der Server ein IPMI hat, mit dem
ich ihn auch aus der Ferne einschalten kann.

Viele Grüße
Steffen

Hallo Steffen,

Wir hatten einmal das Problem, dass der Server aufgrund eines defekten
Akkus nicht mehr mit Strom versorgt wurde, obwohl die Netzspannung gar
nicht ausgefallen war.

Seitdem hängt ein Kabel des redundanten Netzteils nicht mehr an der USV
sondern direkt an der Steckdose.

… spendier dem Server dann aber auch noch eine
überspannungsschutzsteckerleiste für die Leitung, die direkt in der Wand
steckt.

LG

Holger

Das haben wir … dann kann der Strom ja offenbar nicht weg gewesen sein. Mir fiel im Nachhinein auf, dass der Server evtl doch nicht geregelt herunter gefahren wurde sondern einfach von jetzt auf gleich aus war. Zumindest läßt der Zustand einiger VMs (vgl Win10-Thread → Dirty Bit) darauf schließen. Diese VM lief zufällig (was sie normalerweise nicht tut).
Wenn’s die USV war, müsste man das doch irgendwo nachvollziehen können?

Hier übrigens der Verlauf von heute … .das scheint mir „etwas zu oft“ zu sein???

2017-05-18 00:12:14 +0200  Communications with UPS lost.
2017-05-18 00:42:14 +0200  Communications with UPS lost.
2017-05-18 01:12:14 +0200  Communications with UPS lost.
2017-05-18 01:42:14 +0200  Communications with UPS lost.
2017-05-18 02:12:15 +0200  Communications with UPS lost.
2017-05-18 02:42:15 +0200  Communications with UPS lost.
2017-05-18 03:12:15 +0200  Communications with UPS lost.
2017-05-18 03:42:16 +0200  Communications with UPS lost.
2017-05-18 04:12:16 +0200  Communications with UPS lost.
2017-05-18 04:42:16 +0200  Communications with UPS lost.
2017-05-18 04:56:41 +0200  Communications with UPS restored.
2017-05-18 07:43:27 +0200  Communications with UPS lost.
2017-05-18 08:07:07 +0200  Communications with UPS restored.
2017-05-18 09:01:39 +0200  UPS Self Test switch to battery.
2017-05-18 09:01:45 +0200  UPS Self Test completed: Battery OK
2017-05-18 09:16:10 +0200  Communications with UPS lost.
2017-05-18 11:05:26 +0200  apcupsd 3.14.12 (29 March 2014) debian startup succeeded
2017-05-18 11:13:16 +0200  Communications with UPS lost.
2017-05-18 11:43:16 +0200  Communications with UPS lost.
2017-05-18 12:13:17 +0200  Communications with UPS lost.
2017-05-18 12:43:17 +0200  Communications with UPS lost.
2017-05-18 12:58:34 +0200  Communications with UPS restored.
2017-05-18 12:59:30 +0200  Communications with UPS lost.
2017-05-18 13:08:21 +0200  Communications with UPS restored.
2017-05-18 14:12:15 +0200  Communications with UPS lost.
2017-05-18 14:42:15 +0200  Communications with UPS lost.
2017-05-18 15:12:16 +0200  Communications with UPS lost.
2017-05-18 15:42:16 +0200  Communications with UPS lost.
2017-05-18 16:12:16 +0200  Communications with UPS lost.
2017-05-18 16:42:17 +0200  Communications with UPS lost.
2017-05-18 16:47:58 +0200  Communications with UPS restored.
2017-05-18 16:49:21 +0200  Communications with UPS lost.
2017-05-18 17:06:59 +0200  Communications with UPS restored.

Zwischen 9:16 und 11:05 stand alles still …