Lokale KI: Ist sie praxistauglich?

Jahrelang haben wir unsere Werkzeuge und unsere Daten in die Cloud migriert. Anfangs stellte sich die Frage, ob der Weg in die Cloud für jedes Unternehmen der richtige sei, doch mit der Zeit setzte sie sich für die allermeisten als Standardoption durch. Heute, mit dem Aufkommen der KI, frage ich mich, ob es möglich ist, dass wir einen Teil dieses Weges zurückgehen, um KI lokal zu nutzen.

Mit dem Aufkommen der Cloud haben wir gesehen, wie immer mehr Funktionen von unseren PCs in die Cloud gewandert sind. Zu den Vorteilen der Cloud gehörte die Möglichkeit, Software als Dienst (oder SaaS) zu nutzen, wodurch das Kaufen und Installieren einer Anwendung sowie deren Aktualisierung entfiel und man per Abonnement statt per Kauf bezahlte. Außerdem gewannen wir transparente Backups unserer Daten sowie die Möglichkeit, problemlos zu teilen und gemeinsam zu arbeiten.

Doch wir haben auch Kompromisse in Kauf genommen: Wir waren auf eine ständige Internetverbindung angewiesen, unsere Daten waren dem Risiko ausgesetzt, dass der Anbieter sie einsehen oder nutzen würde, und wir akzeptierten ein erhebliches Vendor-Lock-in, weil diese Daten auf der Infrastruktur eines Dritten lagen.

Mit der KI haben wir direkt in der Cloud begonnen, vor allem weil die Kosten für die zum Ausführen von KI-Modellen nötige Hardware für die meisten unerreichbar waren. Aber wie bei jeder Technologie sinken die Kosten mit der Zeit. Genau das passiert mit Open Source, das es bereits erlaubt, auf einem leistungsstarken Personal Computer Modelle auszuführen, die vor wenig mehr als einem Jahr noch Stand der Technik waren.

Es stimmt, dass die größten Modelle noch teure Hardware benötigen, aber es gibt Anwendungsfälle, die lokal durchaus machbar sind, etwa die semantische Suche in Dokumenten, Frage-Antwort, Übersetzung und bestimmte Programmier-Anwendungsfälle. Wobei gerade beim Programmieren die Cloud-Modelle noch einen klaren Vorsprung behalten.

Was zur lokalen KI drängt

Derzeit beobachten wir bestimmte Faktoren, die die Einführung lokaler KI erleichtern:

Die Preise für KI in der Cloud sind stark gestiegen, großteils weil sie nicht mehr subventioniert werden. Das ist bereits ein Problem für Unternehmen, die KI voll eingeführt haben: praktisch über Nacht sehen sie, wie sich der Preis, den sie für KI zahlen, vervielfacht. In vielen Fällen führt das dazu, dass Unternehmen ihre Nutzung reduzieren, mit dem entsprechenden Verlust der Produktivität, die sie bereits gewonnen hatten.
Die Kontrolle über den Datenschutz zu behalten wird schwieriger, und die Risiken nehmen zu. Um mit KI das Maximum aus unseren Daten herauszuholen, müssen wir ihr Zugriff gewähren. Zum ersten Mal haben wir eine Technologie, die die Integration zwischen verschiedenen Systemen vereinfacht und die Notwendigkeit beseitigt, teure Ad-hoc-Integrationen zu erstellen. Allerdings ist die Vorstellung, einer KI im Besitz Dritter Zugriff auf all unsere Systeme zu geben, ein Risiko, das nicht auf die leichte Schulter genommen werden darf. Ich habe das Gefühl, dass manche Unternehmen diese Entscheidung treffen, als wäre sie nur ein weiterer Cloud-Anwendungsfall. Dabei sprechen wir von einer neuen Technologie, die in der Lage ist, aus unseren Daten einen Wert zu ziehen, der zuvor nicht möglich war.
Die Geopolitik hat die technologische Souveränität in den Mittelpunkt gerückt. Derzeit sind die großen KI-Labs amerikanisch oder chinesisch, mit allem, was das bedeutet. In Europa gibt es viele Unternehmen, die ihre Daten aus regulatorischen Gründen nicht aus der Europäischen Union herausführen dürfen, und sie stoßen aus diesem Grund auf Probleme bei der Einführung von KI. Lokale KI kann eine Lösung für viele dieser Probleme sein.
Die Hardwarehersteller setzen immer stärker auf Geräte, die KI lokal ausführen können. Zuerst war es Apple mit Apple Silicon und dem Unified Memory, und jetzt sind es Nvidia gemeinsam mit Microsoft, die Geräte vorgestellt haben, um KI unter Windows einfach auszuführen. Außerdem hat Apple gerade Siri AI vorgestellt, das ein hybrides Ausführungsmodell nutzen wird, bei dem einfache Anfragen auf dem Gerät ausgeführt werden und die komplexeren in Apples Cloud wandern. Obwohl das Modell von Google stammt, garantieren sie, dass keine Daten Apples Server verlassen und dass Google keinen Zugriff haben wird.
Die aktuelle Infrastruktur kann die gesamte Nachfrage nicht decken, und es ist nicht selten, dass Modelle Verfügbarkeitsausfälle haben, die die normale Nutzung unterbrechen. Persönlich kann ich sagen, dass ich in den letzten Monaten jede Woche mindestens mehrere Fehler aufgrund überlasteter KI-Modell-APIs erlebt habe und Programmieraufgaben unterbrechen musste, bis sich der Dienst erholte.

Was lokale KI bremst

Dennoch hat lokale KI einige Nachteile, die sich zwar mit der Zeit abmildern und verbessern lassen, von denen ich aber nicht sicher bin, ob sie vollständig verschwinden werden:

Hardwarekosten: Bis heute benötigen sie zum Laufen Geräte der gehobenen Mittel- und Oberklasse, wobei Macs mit Apple Silicon die Geräte sind, auf denen KI am einfachsten läuft. Zwar braucht man, um die größten Modelle zu nutzen, recht viel RAM, doch mit 16 GB können wir bereits Modelle ausführen, mit denen wir Fragen beantworten, E-Mails zusammenfassen oder übersetzen können. Es ist offen, ob der Tag kommen wird, an dem wir Modelle nach dem Stand der Technik mit großen Kontextfenstern vollständig lokal ausführen können, oder ob wir für diese Fälle weiterhin die Cloud nutzen müssen.
Technisches Wissen: Viel der aktuellen Software zum lokalen Ausführen von KI erfordert ein gewisses technisches Wissen, das sie für nicht-technische Nutzer komplex macht. Selbst die Auswahl des idealen Modells für unsere Hardware und unseren Anwendungsfall ist keine triviale Aufgabe. Auch wenn Modelle wie qwen3.5 4b oder gemma4 e4b auf Geräten mit 16 GB RAM für viele Anwendungsfälle recht gut sind.
Genauigkeit: Die Qualität und Genauigkeit der Antworten ist in der Regel geringer als bei den Modellen der großen Labs, und sie reagieren zudem empfindlicher auf die Qualität der Prompts. Wenn wir es gewohnt sind, ChatGPT oder Claude zu nutzen, wissen wir, dass wir ihnen oft einen vagen Prompt geben und trotzdem gute Antworten erhalten können. Bei kleinen Modellen müssen wir mehr am Prompt arbeiten, und dennoch ist es möglich, dass die Qualität der Antwort nicht dieselbe ist.
Kontextgröße: Da Personal-Geräte über weniger Speicher verfügen, haben wir eine Grenze für die Kontextgröße, die wir bei jeder Anfrage nutzen können. Die lokal nutzbare Kontextgröße liegt etwa ein bis zwei Größenordnungen unter dem, was wir in der Cloud nutzen können.
Geschwindigkeit: Cloud-Modelle antworten in der Regel schneller, während man lokal häufig länger warten muss, auch wenn das stark von Hardware, Modell und Anwendungsfall abhängt. Das Nutzererlebnis von Remote-Modellen ist spürbar besser als das lokaler Modelle.
Zugriff auf Daten: Aufgrund der Cloud-Nutzung, die wir seit Langem betreiben, liegt ein Teil unserer Daten auf Plattformen, auf die lokale KI nicht immer zugreifen kann. Das ist eine Form von Vendor-Lock-in, die die Nutzung lokaler KI mit unseren Daten erschwert.

Ich glaube, dass das stärkste Argument für Unternehmen zugunsten lokaler KI heute darin besteht, die volle Kontrolle über den Datenschutz zu behalten. In diesem Punkt ist ihr Vorteil gegenüber Cloud-KI unbestreitbar. Die Sorge um die Datenkontrolle zu beseitigen, schaltet auch mehr Anwendungsfälle frei, die Unternehmen derzeit einschränken. Eine KI mit vollem Zugriff auf deine Dokumente, deine E-Mails, deinen Code usw. zu haben, ohne dir Sorgen machen zu müssen, was mit deinen Daten passiert, sobald sie deinen Perimeter verlassen, ermöglicht es, den maximalen Wert aus dem aktuellen Potenzial der KI zu ziehen.

–

PS: Wir setzen diese Ideen in die Praxis um, deshalb haben wir einen E-Mail-Client entwickelt, der KI zu 100 % lokal ausführt. Wenn dich das interessiert, kannst du folgende Seite besuchen: → https://getemailops.com