ChatGPT auf der Probe: Wird die AI immer dümmer?

Wie aus jüngsten Forschungsergebnissen hervorgeht, ist die Leistungsfähigkeit von ChatGPT-3.5 sowie von 4.0 äußerst unbeständig. In einigen Bereichen ist sogar ein erschreckender Leistungsabfall zu beobachten – ist die AI vielleicht doch nicht so intelligent wie gedacht?

ChatGPT-Updates übertreffen ältere Versionen nicht

Angesehene Wissenschaftler der Stanford University und der University of California, Berkeley, untersuchten die Leistungsfähigkeit von ChatGPT bei verschiedenen Aufgaben. Im Mittelpunkt dieser umfassenden Bewertung stand die dramatische Inkonsistenz der Leistung über einen Zeitraum von drei Monaten.

Gesponsert

Diese Unstimmigkeit ist mehr als nur auffällig: Sie unterstreicht die Natur der Technologie und die Notwendigkeit, die Qualität ihrer Arbeit konsequent zu überwachen. In einem Bericht heißt es:

“Unsere Ergebnisse zeigen, dass sich das Verhalten ‘desselben’ großen Sprachmodells in relativ kurzer Zeit erheblich ändern kann.”

Vergleich ChatGPT-4 und -3.5 — Leistung von ChatGPT-3.5 und -4 | Quelle: arXiv

Unter anderem wurde in Sachen mathematische Problemlösungsfähigkeiten ein schockierender Leistungsabfall bei der Identifizierung von Primzahlen festgestellt.

Tatsächlich sank die Präzision von lobenswerten 97,6 % im März auf alarmierende 2,4 % im Juni. Das Vorgängermodell, GPT-3.5 hingegen, verbesserte sich im gleichen Zeitraum deutlich: von 7,4 % auf 86,8 %.

Unter Branchenexperten sorgte diese Instabilität für Stirnrunzeln, schließlich würde man von neueren Versionen stets eine bessere Leistung gegenüber ihren Vorgängern erwarten. Dies wirft die Frage auf, wie sich Updates und “Verbesserungen” wirklich auf die Fähigkeiten der AI auswirken.

Gesponsert

Fehlende detaillierte Erklärungen und Codegenerierung

Bei der Beantwortung sensibler Fragen zeichnete sich ebenfalls eine deutliche Veränderung ab: Von März bis Juni erhielten die Wissenschaftler wesentlich weniger direkte Antworten. Dies weist auf eine Verstärkung der Sicherheitsebene hin.

Auch wenn die AI die Beantwortung einer Frage komplett ablehnte, fielen die generierten Erklärungen dazu deutlich kürzer aus. Das führte zu Spekulationen, ob das Modell möglicherweise auf Kosten der Benutzerfreundlichkeit und Klarheit zur Vorsicht neigt.

Doch nicht alle Ergebnisse waren so enttäuschend. In einem entscheidenden Bereich wiesen GPT-4, und in gewissem Maße auch GPT-3.5, marginale Verbesserungen auf: das visuelle Denken. Obgleich die Erfolgsquoten insgesamt relativ niedrig blieben, gab es Anzeichen für eine Leistungssteigerung.

Die tatsächliche Gefahr verbirgt sich allerdings hinter der Unvorhersehbarkeit dieser Leistungsschwankungen. Beispielsweise ließ die Qualität auch bei der Generierung von direkt ausführbarem Code deutlich nach. Für Branchen, die sich beim Programmieren auf solche Sprachmodelle verlassen, ist dies ein wirklich ernstzunehmendes Warnsignal. Derartige Inkonsistenzen können in größeren Software-Ökosystemen verheerende Folgen haben.

Die Gefahr von ChatGPT liegt in der Unbeständigkeit

Die wichtigste Erkenntnis aus dieser eingehenden Analyse betrifft jedoch nicht die Leistungsschwankungen von GPT-4 und -3.5 an sich. Viel mehr geht es um die übergreifende Lektion hinsichtlich der unbeständigen Effizienz von AI.

Passend dazu: Die besten kostenlosen Midjourney Alternativen

Bei schnellen technologischen Fortschritten wird implizit davon ausgegangen, dass neuere Modelle ihre Vorgänger übertreffen. Wie diese Studie jedoch beweist, ist dies nicht zwangsläufig der Fall.

Unternehmen und Entwickler, die stark auf ChatGPT setzen, sollten diese Modelle daher regelmäßig überwachen und neu bewerten. Während künstliche Intelligenz zunehmend unseren Alltag beeinflusst, erinnert die Studie eindringlich daran, dass die Fortschritte nicht linear verlaufen.

Verwendung von ChatGPT in Untenrehmen — Weltweite Verwendung von ChatGPT in Unternehmen | Quelle: Statista

Neu bedeutet nicht immer besser, das wäre eine zu starke Vereinfachung. Das sprunghafte Verhalten von GPT-4 und -3.5 innerhalb weniger Monate verdeutlicht die Dringlichkeit, wachsam zu bleiben, zu bewerten und neu zu kalibrieren. Nur so können wir eine gleichbleibende Leistung dieser Technologie sicherstellen.

Folge uns für noch mehr Informationen rund um Krypto auf:
Twitter oder tritt unserer Gruppe auf Telegram bei.

Haftungsausschluss

In Übereinstimmung mit den Richtlinien des Trust Project verpflichtet sich BeInCrypto zu einer unvoreingenommenen, transparenten Berichterstattung. Dieser Artikel zielt darauf ab, genaue und aktuelle Informationen zu liefern. Den Lesern wird jedoch empfohlen, die Fakten unabhängig zu überprüfen und einen Fachmann zu konsultieren, bevor sie auf der Grundlage dieses Inhalts Entscheidungen treffen.

Nächsten lesen

Bitwise-CIO präsentiert mutiges 1-Million-USD-Bitcoin-Szenario – So rechnet er

News

Märkte

vor 9 Minuten veröffentlicht

Bitwise-CIO präsentiert mutiges 1-Million-USD-Bitcoin-Szenario – So rechnet er

Wird ChatGPT dümmer? Neue Studie enthüllt überraschende Ergebnisse

ChatGPT-Updates übertreffen ältere Versionen nicht

Fehlende detaillierte Erklärungen und Codegenerierung

Die Gefahr von ChatGPT liegt in der Unbeständigkeit