Self-Hosted AI: Large Language Models auf eigener Hardware betreiben

April 7, 2025 - 3 Minuten - 481 Wörter

Von der Theorie zur Praxis

In unserem Artikel vom vergangenen Juni haben wir beleuchtet, warum lokale KI-Modelle für Unternehmen zunehmend interessant werden. Seitdem hat sich einiges getan: Die Modelle sind leistungsfähiger geworden, die Tools ausgereifter und die Hardware-Optionen vielfältiger. Zeit für einen praktischen Leitfaden.

Hardware: Welche Optionen gibt es?

Die Wahl der Hardware hängt vom Einsatzszenario ab. Drei gängige Ansätze:

GPU-Server (NVIDIA): Der klassische Weg. Dedizierte Server mit einer oder mehreren NVIDIA-GPUs (A100, H100 oder die günstigeren RTX-4090/5090) bieten die höchste Flexibilität. Modelle mit 70 Milliarden Parametern laufen flüssig, größere Modelle lassen sich über mehrere GPUs verteilen. Linux ist hier das Betriebssystem der Wahl.

Apple Silicon: Apples M-Serie mit Unified Memory hat sich als überraschend leistungsfähige Plattform für KI-Inferenz etabliert. Ein Mac Studio mit 192 GB oder 512 GB Unified Memory kann Modelle ausführen, die auf herkömmlicher Hardware mehrere GPUs erfordern würden. Der Vorteil: leiser Betrieb, geringer Stromverbrauch und einfache Einrichtung.

Edge-Geräte: Für spezialisierte Aufgaben (Textklassifizierung, Zusammenfassung, einfache Assistenten) reichen kleinere Modelle mit 7–14 Milliarden Parametern, die auf kompakter Hardware mit 32–64 GB RAM laufen.

Software-Stack: Was wird benötigt?

Die wichtigsten Werkzeuge im Überblick:

Ollama: Der einfachste Einstieg. Ollama verwaltet Modelle und stellt eine lokale API bereit, die kompatibel zu gängigen Schnittstellen ist. Installation und Modellwechsel sind in Minuten erledigt.
vLLM: Für produktive Einsätze mit hohem Durchsatz. Optimiert die GPU-Auslastung und unterstützt parallele Anfragen.
llama.cpp: Die performanteste Option für CPU-basierte oder Apple-Silicon-Inferenz. Unterstützt quantisierte Modelle, die weniger Speicher benötigen.

Architektur: Vom Modell zur Anwendung

Ein isoliertes Sprachmodell ist noch keine KI-Lösung. Der Mehrwert entsteht durch die Integration in bestehende Systeme:

RAG (Retrieval-Augmented Generation): Das Modell wird mit einer Wissensdatenbank verbunden. Bei einer Anfrage werden zunächst relevante Dokumente gesucht und dem Modell als Kontext mitgegeben. So beantwortet das Modell Fragen auf Basis aktueller, interner Daten – ohne Halluzinationen über Themen, die es nicht kennt.

Tool-Integration: Moderne LLMs können externe Werkzeuge aufrufen – Datenbanken abfragen, APIs ansprechen oder Berechnungen durchführen. Das macht sie zu echten Assistenten, die nicht nur Text generieren, sondern Aktionen ausführen können.

API-Gateway: Ein zentraler Zugangspunkt, der Anfragen an das richtige Modell weiterleitet, Authentifizierung übernimmt und Nutzung protokolliert. Damit wird die KI-Infrastruktur für verschiedene Anwendungen im Unternehmen nutzbar.

Datenschutz und Sicherheit

Self-Hosted AI löst das größte Bedenken vieler Unternehmen: Sensible Daten verlassen nie die eigene Infrastruktur. Dennoch gibt es Aspekte zu beachten:

Zugriffskontrolle: Wer darf welche Modelle mit welchen Daten nutzen?
Logging: Welche Anfragen werden protokolliert, und wie lange werden Logs aufbewahrt?
Modellherkunft: Ist die Lizenz des verwendeten Modells für den kommerziellen Einsatz geeignet?
Updates: Wie werden Modelle aktualisiert, ohne den laufenden Betrieb zu unterbrechen?

Unsere Erfahrung

Bei der Dunkel Cloud GmbH betreiben wir selbst lokale KI-Infrastruktur und sammeln seit über einem Jahr praktische Erfahrung mit verschiedenen Modellen, Hardware-Konfigurationen und Integrationsszenarien. Diese Erfahrung fließt direkt in unsere Beratung ein.

Ob Sie erste Schritte mit lokaler KI planen oder eine bestehende Infrastruktur optimieren möchten – wir unterstützen Sie gerne.