Hallo Jürgen,
18:10/0 server ~ # ssh 10.16.30.2 ssh: connect to host 10.16.30.2 port 22: No route to host
klon mal das Image auf einen virtuellen Cleint und schau dann nach, ob
der NEtzt hat und wenn nein, warum nciht.
LG
Holger
Hallo Jürgen,
18:10/0 server ~ # ssh 10.16.30.2 ssh: connect to host 10.16.30.2 port 22: No route to host
klon mal das Image auf einen virtuellen Cleint und schau dann nach, ob
der NEtzt hat und wenn nein, warum nciht.
LG
Holger
Hallo Alois,
nein: From 10.16.1.1 icmp_seq=12 Destination Host Unreachable
Es liegt definitiv nur am Image mit der folding@home-Software. Bei mehreren Clients habe ich das überprüft: Anderes Image → Verbindung zum Server ist wieder da.
Viele Grüße
Jürgen
Hallo Jürgen,
Und wenn Du auf dem funktionierenden Image die Folding@Home-Software installierst, geht es dann?
Wenn nicht, macht die Software etwas komisches bei Deiner Hardware. Wenn doch, ist vermutlich etwas beim Image-Erstellen schief gelaufen.
Viele Grüße
Thomas
Hallo,
Und wenn Du auf dem funktionierenden Image die Folding@Home-Software
installierst, geht es dann?Wenn nicht, macht die Software etwas komisches bei Deiner Hardware.
… unwahrscheinlich.
Wenn
doch, ist vermutlich etwas beim Image-Erstellen schief gelaufen.
ich würd mir so einen Cleint halt mal anschauen: welches Problem hat er
denn, wenn man davor sitzt.
LG
Holger
Hallo Jürgen,
dann liegt es möglicherweise nicht an den Clients, sondern an der Hardware dazwischen.
Meine Verdächtigen:
Wie Holger schon schrieb. Alles vor Ort anschauen. Bei keinem meiner Clients kam bzw. kommt es zu Netzwerkausfällen durch die Software.
Gruß
Alois
Hallo zusammen,
ich finde es eine super Idee von euch. 17 Rechner rechnen jetzt von uns mit. Vllt. kommen noch welche dazu. (linuxmuster.net_(Humboldt_Ka)) oder so.
Ich finde es auch super, dass hier über den Sinn diskutiert wird, hinterfragt wird und nicht blind gerechnet wird
VG, Tobias
hai zusammne,
schaut mal wieviel der Rechner tatsächlich bei euch rechnen.
Ich habe auf einem neueren 4-kerner das Image erstellt und dabei war FAHClient schon am Laufen. --> Fehler.
Die älteren Clients denken, sie können weiterrechnen und kommen (vllt. vorerst?) nicht aus der Nummer raus:
21:12:52:WU00:FS00:Running FahCore: /usr/bin/FAHCoreWrapper /var/lib/fahclient/cores/cores.foldingathome.org/v7/lin/64bit/avx/Core_a7.fah/FahCore_a7 -dir 00 -suffix 01 -version 705 -lifeline 1019 -checkpoint 15 -np 2
21:12:52:WU00:FS00:Started FahCore on PID 7962
21:12:52:WU00:FS00:Core PID:7966
21:12:52:WU00:FS00:FahCore 0xa7 started
21:12:53:WU00:FS00:FahCore returned: INTERRUPTED (102 = 0x66)
Da musst ich nachhelfen, remote geht das so:
ssh r207-pc02 '{ /etc/init.d/FAHClient stop ; rm -rf /var/lib/fahclient/* ; /etc/init.d/FAHClient start ; }'
Danach sucht der sich auch WorkUnits, die zur CPU passen. Ich denke, es geht da nicht nur um die Anzahl der Cores, sondern auch um die CPU-Erweiterungen…
VG, Tobias
Man sollte sowieso immer mal wieder schauen, ich hab Clients die hoeren einfach auf und bei meinem Server musste ich fahclient schon ein paarmal neu installieren, weiss der Teufel wieso, hab da aber auch nicht gross den Fehler gesucht.
Edith: Sehe gerade der Weg von Tobias scheint mir eleganter.
a) /etc/fahclient/config.xml wegkopieren
b) apt purge fahclient
c) dpkg -i fahclientxyz.deb
e) cp config.xml /etc/fahclient/
f) reboot
Ich hab auf der Musterloesung „mussh“ (MUltihost SSH Wrapper) installiert, da der Server per ssh zertifikatsbasiert auf die Clients zugreifen kann, benoetigt man kein Passwort.
Mit folgendem Befehl auf dem Server wir der Befehl „uptime“ auf den Clients ausgefuehrt und uptime zeigt auch die Load an, die sollte auf alle Faelle > 1 sein, bei meinen Clients hat sie „4“ wenn fahclient am Knechten ist.
mussh -h 10.32.203.{1..31} -c "uptime"
Identity added: /root/.ssh/id_rsa (/root/.ssh/id_rsa)
Identity added: /root/.ssh/id_dsa (/root/.ssh/id_dsa)
Identity added: /root/.ssh/id_ecdsa (/root/.ssh/id_ecdsa)
10.32.203.1: ssh: connect to host 10.32.203.1 port 22: No route to host
10.32.203.10: 07:32:22 up 15 min, 0 users, load average: 4,00, 3,93, 2,68
10.32.203.11: 07:32:23 up 16 min, 0 users, load average: 4,00, 3,89, 2,64
10.32.203.12: 07:32:23 up 16 min, 0 users, load average: 4,00, 3,92, 2,69
10.32.203.13: 07:32:23 up 15 min, 0 users, load average: 4,09, 3,96, 2,67
10.32.203.14: 07:32:24 up 16 min, 0 users, load average: 4,22, 4,02, 2,74
10.32.203.15: ssh: connect to host 10.32.203.15 port 22: No route to host
mussh ist ein tolles Werkzeug, man kann Hostlists erstellen und diese beim Aufruf mit „-H“ einbinden, der Hack mit {1…31} tut aber sowieso immer, nutze ich auch bei Clusterssh wenn Grafik vorhanden, hab ich ja aber hier nicht.
Gruss Harry
Wieder eine tausender Grenze geknackt
Gruß
Alois
Hi, bei der Einrichtung hieß es: ich stelle die CPU-Last „anfänglich“ auf „full“.
Kann man mit einem PC, der auf „medium“ oder „light“ läuft eigentlich nebenher normal arbeiten? Hat das jemand probiert?
VG, Tobias
Hallo Tobias,
Hi, bei der Einrichtung hieß es: ich stelle die CPU-Last „anfänglich“
auf „full“.
Kann man mit einem PC, der auf „medium“ oder „light“ läuft eigentlich
nebenher normal arbeiten? Hat das jemand probiert?
bei mir läuft das Ding an meinem Arbeitsrechner von Anfang an mit auf
Medium: hab noch nie etwas davon bemerkt.
Ab und zu schau ich nach der Prozessortemperatur: aber die bleibt unter
50 °C … ein Ryzen ist kein Hitzkopf.
Was mich wundert: ich lasse 35 Rechner (außer meinem) für mcih rechnen:
in der Statistik bei meinem User stehen aber immer nur „2 Activ Clients“
Irgendwie kann er die geklonten Clients nicht auseinanderhalten.
Gleichzeitig stehen aber bei dir 36 Stück … vielleicht sollte ich die
Clientsoftware von Folding@Home mal aktualisieren …
LG
Holger
Hi Holger,
vielleicht hilft der Trick beim Booten „rm -rf /var/lib/fahclient/*“ im postsync. Damit muss er beim (gesyncten) Reboot mit neuen WorkUnits anfangen und diese (je nach lokaler CPU-Konfiguration) passend zu starten.
VG, Tobias
Hallo Tobias!
Das mache ich momentan nicht:
Also meine Rechner starten nur direkt. linbo-remote -c start:1…
Beste Grüße
Thorsten
Hallo Holger,
Die Clientzahl scheint mir recht beliebig. Bei uns rechnen definitiv mehr Rechner als angezeigt (kann man ja mit FAHControl remote überprüfen).
Insofern vermute ich mal, das das vielleicht etwas anderes aussagt. Z.B. wie viele Pakete gleichzeitig abgeholt werden oder so. Denn die melden sich ja alle mit dem gleichen „Account“ an.
Aber vielleicht bringt da ja noch jemand „Erleuchtung“.
Viele Grüße
Thomas
Bei mir stimmen die Zahlen, hab die Clients aber per ssh/mussh installiert und nicht per Image.
hi Thorsten,
ich hab keine Ahnung, ob es darum ging und ob wir aneinander vorbeireden. Wenn ich gesynct neustarte, dann geht die momentane WorkUnit garantiert verloren, klar. Aber bei den vorangegangenen Arbeiten glaube ich ist das egal, die sind ja schon zurückübermittelt.
Mir ging es bloß darum, keine Fehlermeldungen in den Logs zusehen, dass man lokal die zugewiesenen Jobs nicht ausführen kann, weil man nicht die richtigen CPUs hat, daher die Löschung von /var/lib/fahclient/*. Das habe ich auch nur einmal gemacht, seitdem laufen die Rechner ja eh durch…
Außerdem kann ich zur Diskussion nur beitragen: Bei mir werden 35 active clients angezeigt, scheinbar schon eine ganze Weile, ich habe 52 PCs am Laufen, davon werden aber nicht allen adäquate WorkUnits zugewiesen, so dass nicht alle ausgelastet sind. Ob das aber mit der 35 zu tun hat bezweifel ich. Ich vermute das ist ein Mittelwert.
Hier mal was mein check_room.sh script macht:
https://cloud.humboldt-ka.de/s/nEC3gyQwE8gaaoT
Passwort: 2yMKWfMG
Ein Screenshot noch:
Wer das Script haben möchte, GitHub - jolly-jump/lmn-misc-tools: Miscellaneous tools for lmn v7
Es nutzt kein mussh oder parallel-ssh, sondern arbeitet seriell, weil ich den output verfolgen möchte.
VG, Tobias
Hallo Thomas,
Die Clientzahl scheint mir recht beliebig. Bei uns rechnen definitiv
mehr Rechner als angezeigt (kann man ja mit FAHControl remote überprüfen).Insofern vermute ich mal, das das vielleicht etwas anderes aussagt. Z.B.
wie viele Pakete gleichzeitig abgeholt werden oder so. Denn die melden
sich ja alle mit dem gleichen „Account“ an.
wie rufst du den von einem Client aus mit fahcontrol den Status des
entfernten Clients ab?
Ich hab mal bei remote im Client mein Netz eingetragen:
10.16.0.0/12
LG
Holger
Hallo Holger,
das muss in die config.xml:
<config>
<user value="[Nutzername]"/>
<team value="253308"/>
<passkey value="[Passkey]/>
<power value="medium"/>
<gpu value="false"/>
<fold-anon value="true"/>
<allow v='127.0.0.1,[IP irgendeines Rechners]'/>
<proxy v=':8080'/>
<command-allow-no-pass v='127.0.0.1,[IP irgendeines Rechners]'/>
</config>
Bei mir war „irgendein Rechner“ ein virtueller Client (von dem ich auch das Image erzeugt habe). Dort kann man die Clients dann in die FAHControl-Software einbinden. Ich habe das manuell gemacht - keine Ahnung, ob das auch automatisch geht.
Viele Grüße
Thomas
Hallo Thomas,
<passkey
value="[Passkey]/>
|Bei mir war „irgendein Rechner“ ein virtueller Client (von dem ich auch
das Image erzeugt habe). Dort kann man die Clients dann in die
FAHControl-Software einbinden. Ich habe das manuell gemacht - keine
Ahnung, ob das auch automatisch geht.
OK: ich hatte die 127.0.0.1 rausgenommen und durch mein Netz ersetzt:
deswegen kam der lokale FAHClient nciht mehr an den Prozess…
Bei mir steht jetzt beim allow und bei command-allow-no-passwd jeweils
127.0.0.1,10.16.0.0/12
drin: die Einrichtung ist ja leer …
Wie sieht denn dann die Abfrage auf dem abfragenden Client aus?
LG
Holger