Archiv des Monats: Mai 2026

Nvidia DGX Spark Cluster mit vLLM für Hermes Agent (von NousResearch)

Ich hatte zu Testzwecken auf meinem PC zum ersten Test ein LM Studio am laufen mit einer 16 GB Grafikkarte und 48 GB RAM. Darauf liefen meine ersten Schritte mit selbstgehosteten Sprachmodellen. Ich war fasziniert und wollte mehr erfahren, insbesondere, wie diese Technologie skaliert werden kann.

Zuerst lief bei mir OpenClaw mit unterschiedlichen Modellen, was eben in den PC „hineingepasst“ hat. OpenClaw war stark in der Verwendung von Werkzeugen, mir persönlich aber zu vergesslich. Also bin ich zu Hermes Agent gewechselt. Und dort wollte ich auch ein größeres Modell testen.

Nach ein paar Nächten habe ich dann alles ans Laufen gebracht. Es gab mehrere Bugs und Probleme: Qwen3-VL-MoE Pydantic-Bug (NGC vLLM 0.19), NVIDIA Container Runtime Bug, Mistral Tokenizer-Validator zu strikt, Worker-Reconnect nach Head-Restart, Qwen2.5-VL-72B Tool-Calling zu zurückhaltend, NCCL-Multinode-Hänger…

Weiterlesen

Nvidia DGX Spark Dashboard im LAN verwenden

Ich habe einen Nvidia DGX Spark, bei dem ich in meinem Netzwerk etwas spielen möchte mit KI und den modernen Modellen. Der DGX Spark kann größere Modelle laden, wie mein PC und ist damit eine nette Entwicklungsumgebung.

Richtet man den Spark zuerst ein, marschiert man durch das First-Time Setup und kann sich dann auf den Spark per SSH verbinden.

Es gibt auch ein Dashboard, das jedoch nur kompliziert zu verwenden ist. Entweder über SSH Tunnel, Nvidia Software oder andere Technologien. Das ist mit zu kompliziert.

Weiterlesen