Halluzinationen von KI
Eine Studie von Relum vom Dezember 2025 hat Elon Musks Grok als einen der zuverlässigsten KI-Chatbots für den Einsatz am Arbeitsplatz identifiziert und mit nur 8% der 10 getesteten Hauptmodelle die niedrigste Halluzinationsrate vorweisen.
Im Vergleich dazu verzeichnete der Marktführer ChatGPT mit 35 % eine der höchsten Halluzinationsraten, direkt hinter Googles Gemini, das mit 38% eine hohe Halluzinationsrate verzeichnete. Die Ergebnisse unterstreichen Groks faktische Kompetenz trotz der geringeren Marktsichtbarkeit des KI-Modells.
Die Studie bewertete Chatbots hinsichtlich Halluzinationsrate, Kundenbewertungen, Reaktionskonsistenz und Ausfallzeit. Den Chatbots wurde dann ein Zuverlässigkeitsrisiko-Score von 0 bis 99 zugewiesen, wobei höhere Werte auf grössere Probleme hindeuten.
Grok erreichte eine Halluzinationsrate von 8%, eine Kundenbewertung von 4,5, eine Konsistenz von 3,5% und eine Ausfallzeit von 0,07%, was zu einem Gesamtrisikowert von nur 6 führte. DeepSeek folgte dicht mit 14% Halluzinationen und keiner Ausfallzeit, was einem hervorragenden Risikowert von 4 entspricht. Die hohen Halluzinations- und Ausfallzeiten von ChatGPT verschafften ihm mit 99 den höchsten Risikowert, gefolgt von Claude und Meta AI, die Zuverlässigkeitsrisikowerte von 75 bzw. 70 erreichten.
von Simon Alvarez