Der Start meines KI-Experiments: blauäugig, fehlinformiert und viel zu optimistisch

Es war ein sonniger Nachmittag im Herbst 2025, als ich beschloss, mich ernsthaft mit großen Sprachmodellen (Large Language Models = LLM) zu beschäftigen.

Ich, ein IT-Veteran mit 40 Jahren Erfahrung, dachte mir: „Na gut, dann schau ich mal, was dran ist an dem Hype.“ Also begann ich mein corteq-Experiment – mit einer Mischung aus Neugier, technischem Verständnis und einer gehörigen Portion Naivität. Ich will dem Hype und der Illusion der Allmacht, sie von Anbietern und von Meihnungsführern auf meinen persönlichen Prüfstand stellen. Ich versuche zunächst einmal, den KI-Markt zu erfassen:

Der KI-Markt Stand 4/2026

Vier Jahre nach dem ChatGPT-Boom hat sich der KI-Markt konsolidiert, nur wenige Anbieter dominieren das Feld:

OpenAI bietet mit GPT-5 die besten allgemeinen Sprachfähigkeiten und eine starke Multimodalität. OpenAI ist nach wie Marktführer, scheint den Spagat zwischen ;assenmarket und Enterprise-Markt suchen zu wollen, steht aber unter enormem Kosten- und Erfolgsdruck. Die Nutzung con OpenAI über die API OpenAI recht teuer.
Claude 4 von Anthropic bietet die ernsthaftesten LLM-Modelle an – mit der geringsten Halluzinationsrate und der besten Logik. Anthropic positioniert sich eindeutig im Enterprise Markt, legt von den gro0en Anbietern den meisten Wert darauf, dass seine Modelle ethisch vertretbar eingesetzt werden und ist im Einsatz sicher. Damit positioniert sich Anthropic (mit Erfolg) im Enterprise -Markt, das zeigt sich auch in seiner Erweiterung in Richtung Business-Tools wie Cowork. Anthropic mit Abstand der teuerste Anbieter im Kreis der weit verbreiteten LLM und verlangt ein mehrfaches z.B. des Zweitteuersten (OpenAI), scheint diese Preise aber auch durchsetzen zu können
Google hat mit der 3er-Reihe von Gemini die früher doch recht deutlich Leistungslücke zu den vorgenannten Modellen verringern können, in Teilbereichen sogar schließen können. Man sagt Gemini allerdings nach wie nach, mehr zu halluzinieren und in Sachen Logik hinter denv vorgenannten Modellen zurückzubleiben. Dafür punktet Google mit der tiefen Integration seiner KI in seine Dienste und mit guten Tools rund um die KI. Google ist in einer anderen Situation als andere KI-Anbieter: Google muss mit KI kein Geld verdienen, weil es durch seine anderen Aktivitäten hervorragend verdient. Google sieht die KI in erster Linie als Absicherung seiner bisherigen Geschäftsfelder. Trotzdem schenkt Google im Bereich KI nichts her, liegt it seinen API-Preisen jedoch deutlich hinter OpenAI. Zu erwähnen ist noch Googles Open-Weight-Angebot in Form von Gemma4. Derzeit soll es das leistungsfühigste Modelle in diesem Segement sein.
Weitere Anbieter sind z.B. Meta mit ihrem Open-Weight-LLM Llam 3. Meta propagiert sein LLM als Open Source, da aber werder Trainingsdaten noch Trainingsmethodik öffentlich sind, sondern nur die Ergebnisse auf beidem (die sogenannten „Weights“) ist der Begriff Open-Source falsch. Der korrekte Begriff lautet Open-Weights.
Auch aus Europa gibt es einen halbwegs ernstzunehmenden Anbieter, die französische Firma Mistral AI mit ihren Mistral-Modellen. Sie sind sehr „sprachgewandt“ in verschiedenen Sprachen, was angesichts des multilingualen europäischen Raumes nicht verwundert. Diese halten nicht ganz Schritt mit den amerikanischen und chinesischen Modellen, bieten aber einen enormen Vorteil: jedes Organisation, die dem EU-AI-Act gerechtwerden werden muss, oder zusätzlich der DSGVO genügen muss, darf bei der Verarbeitung personenbezogener oder Sicherhreitskritischer Informationen keine Modelle über Cloud-Dienste einsetzen, bei denen die Möglichkeit (oder die Sicherheit) besteht, dass ausländische Behörden die Daten einsehen kann. Diesem Thema werde ich noch einen eigenen Beitrag widmen, da es für den KI-Einsatz in Behörden und Unternehmen eine große Rolle spielt und absolut ernstzunehmen ist.
Auch aus Deutschland gibt es erfreuliche Ausnahmen im trüben germanischen KI-Wald zu vermelden: mit Flux 2 der Black-Forest-Labs ist eines der weltbesten Text-to-Image-Bildgenerierungsmodelle und mit Aleph-Alpha gibt es ein weniger leistungsfähiges, aber dafür EU- und DE-Gesetzes-konformes LLM, das vor allem von deutschen Behörden und Unternehmen eingesetzt wird. Aleph Alpha ist wie ein deutscher Elektro-Kleinwagen – gut gemeint, aber niemand kauft ihn, wenn es einen Tesla gibt. Solange die USA und China die KI dominieren, bleiben Deutschland und Europa im Hintertreffen.
Dann gibt es noch die chinesischen Modelle, Deepseek und vor allem Qwen 3 von Alibaba als chinesischer Marktführer. Sie werden immer leistungsfähiger, sind aber sprachlich sehr auf den chinesischen Markt ausgerichtet. Das hat zur Folge, dass chinesische Modelle in der Hauptsache mit chinesischen daten gefüttert trainiert werden. Chinesische Modelle lügen – aber nicht aus Dummheit, sondern aus Gehorsam gegenüber einem Staat, der eine strenge Zensur ausübt. Der chinesischen Staat nutzt die KI zur Massenüberwachung: Gesichtserkennung, Social Scoring, der Polizei. Chinesische Behöreden können Daten aus der Modellnutzung beliebig mitschneiden und analysieren. Preislich gesehen sind die chinesischen Modlle günstig und kosten z.B. nur ein Viertel dessen, was die Nutzung von Openai Modelle kostet.

Die technischen Grenzen 2026 – warum KI immer noch nicht halten kann, was sie verspricht – und es auch nicht können wird.

Hält man sich vor Augen, wie ein LLM funktioniert, als statistisches System, das auf Basis von Vektordaten „einfach“ nur das nächste Wort vorhersagt, dann empfinde ich es immer noch als faszinierend, welche Möglichkeiten dies Modelle bieten.

Diese Modelle werden mit großen Datenbeständen aus den unterschiedlichsten Stellen, teils legal, teils illegal gefüttert. Da sind falsche Daten dabei, eingefärbte Daten, Datenlücken bestehen und die Aktualität der Daten ist innerhalb der Modelldaten nie gegeben. Kurz gesagt: miemand kann die Qusalität der Daten wirklich einschätzen. Damit ist schon einmal eine große Unsicherheit in der Basis des KI-Modells enthalten. Dann werden die Daten durch unterschiedliche Verfahren manipuliert, um die gewünschten Ergebnisse sicherer zu erreichen. Dies geschieht teils durch menschlichen Eingriff (mitunter durch ausbeuterische Klick-Arbeiter in armen Gegenden), teils durch andere Modelle. Im Endeffekt sind aber auch hier Unsicherheit enthalten, die schwer bis garnicht einzuschätzen sind.

Ein weiteres Problem besteh darin, dass die KI das Internet und andere Datenquellen immer mehr mit ihren Ergebnissen überflutet. Das hat zur Folge, dass die KI sich zum Teil mit ihren eigenen Daten trainiert. Dies hat zur Folge, dass die Tiefe und die Qualität der Trainingsdaten immer weiter zurückgeht und damit auch die Fortschritte, die die Modelle machen, immer geringer werden.

Zu guter Letzt arbeiten die KI-Forscher mit korrigierenden Faktoren, um Ergebnisse aus dem trainierten Modell in die richtige Richtung zu lenken (Alignment). Das kann man gut feststellen, wenn man sieht, dass neue Modellvarianten immer leistungsfähriger sind, wenn sie auf den Markt kommen, und in ihrem Lebenszyklus einen Teil ihrer Leistungsfähigkeit durch das notwendige Alignment verlieren.

Das sind nur einige der nicht oder schwer einschätzbaren Mängel, die dafür Sorge tragen, dass KI-Modelle mit dem heutigen Technologie-Stack keine allzu hohe Qulität erreichen können. Und der Begriff der Halluzination, d.h. falscher Antworten durch die KI, ist auch komplett irreführend: Ein KI kennt keine Wahrheit und kennt auch nicht richtig oder falsch. Es kennt statistische Wahrscheinlichkeiten. Wenn diese nicht korrekt ermittelt werden können, „halluziniert“ das System.

Die fehlende Aktualität der KI-Modelle haben zur Folge, dass Anforderungen an die KI, die aktuelle Daten beinhalten, durch Abfragen im Internet befriedigt werden müssen. Wir alle kennen die Qualität der Suchergebnisse im Internet, die durch den ständigen Zufluß an KI-Müll immer weiter sinkt, und damit ist auch klar, dass Antworten der KI mit aktuellen Informationen noch fehleranfälliger sind, als es die Modelldaten ohnehin schon sind.

Ich möchte aber festhalten, dass es eng umrissene Aufgabengebiete gibt, in den die KI hervorragende Arbeit leistet (z.B. im Beriech der Medizin und der Forschung im allgemeinen) und ich möchte auch die Nützlichkeit der KI betonen, sofern sie korrekt eingesetzt wird. Genau darum geht es bei dem corteq-KI-Experimenten: Ich werde aussprobieren, was mit KI gut geht und was nicht. Ich werde nicht die 1000. Ausführung der Aufgabe „erstelle mit eine Landingpage für eine KI-Agentur“ von der KI verlangen, sondern ich möchte, dass KI wirklich zeigen muss, was sie kann.

Einen besonders großen Anteil werden Experimente mit lokal betriebenen KI-Modllen spielen, das ist – nach meiner persönlichen Einschätzung – ein Einsatzszenario, dass für kleine und mittlere Betriebe und für Behörden in Zukunft eine wichtige Rolle spielen wird.

Also denn – los gehts.