Halluzinationen von KI

Eine Studie von Relum vom Dezember 2025 hat Elon Musks Grok als einen der zuverlässigsten KI-Chatbots für den Einsatz am Arbeitsplatz identifiziert und mit nur 8% der 10 getesteten Hauptmodelle die niedrigste Halluzinationsrate vorweisen.

Im Vergleich dazu verzeichnete der Marktführer ChatGPT mit 35 % eine der höchsten Halluzinationsraten, direkt hinter Googles Gemini, das mit 38% eine hohe Halluzinationsrate verzeichnete. Die Ergebnisse unterstreichen Groks faktische Kompetenz trotz der geringeren Marktsichtbarkeit des KI-Modells.

Die Studie bewertete Chatbots hinsichtlich Halluzinationsrate, Kundenbewertungen, Reaktionskonsistenz und Ausfallzeit. Den Chatbots wurde dann ein Zuverlässigkeitsrisiko-Score von 0 bis 99 zugewiesen, wobei höhere Werte auf grössere Probleme hindeuten.

Grok erreichte eine Halluzinationsrate von 8%, eine Kundenbewertung von 4,5, eine Konsistenz von 3,5% und eine Ausfallzeit von 0,07%, was zu einem Gesamtrisikowert von nur 6 führte. DeepSeek folgte dicht mit 14% Halluzinationen und keiner Ausfallzeit, was einem hervorragenden Risikowert von 4 entspricht. Die hohen Halluzinations- und Ausfallzeiten von ChatGPT verschafften ihm mit 99 den höchsten Risikowert, gefolgt von Claude und Meta AI, die Zuverlässigkeitsrisikowerte von 75 bzw. 70 erreichten.

von Simon Alvarez

Zurück
Zurück

Mögliche Energie Auswirkung der generativer KI

Weiter
Weiter

Die KI-Stopptaste