Trusted

Wird ChatGPT dümmer? Neue Studie enthüllt überraschende Ergebnisse

3 min
Aktualisiert von BeInCrypto Team
Trete hier unserer Community auf Telegram bei!

IN KÜRZE

  • Laut einer Studie von Stanford und der UC Berkeley wies die Leistung der ChatGPT-Versionen -3.5 und -4 innerhalb der letzten drei Monaten starke Schwankungen auf.
  • Während die Genauigkeit von GPT-4 beim Erkennen von Primzahlen drastisch abnahm, zeigte GPT-3.5 eine deutliche Verbesserung.
  • Neue AI-Modelle sind nicht immer besser als die älteren, was die Notwendigkeit einer kontinuierlichen Überwachung unterstreicht.
  • promo

Wie aus jüngsten Forschungsergebnissen hervorgeht, ist die Leistungsfähigkeit von ChatGPT-3.5 sowie von 4.0 äußerst unbeständig. In einigen Bereichen ist sogar ein erschreckender Leistungsabfall zu beobachten – ist die AI vielleicht doch nicht so intelligent wie gedacht?

ChatGPT-Updates übertreffen ältere Versionen nicht

Angesehene Wissenschaftler der Stanford University und der University of California, Berkeley, untersuchten die Leistungsfähigkeit von ChatGPT bei verschiedenen Aufgaben. Im Mittelpunkt dieser umfassenden Bewertung stand die dramatische Inkonsistenz der Leistung über einen Zeitraum von drei Monaten.

Diese Unstimmigkeit ist mehr als nur auffällig: Sie unterstreicht die Natur der Technologie und die Notwendigkeit, die Qualität ihrer Arbeit konsequent zu überwachen. In einem Bericht heißt es:

“Unsere Ergebnisse zeigen, dass sich das Verhalten ‘desselben’ großen Sprachmodells in relativ kurzer Zeit erheblich ändern kann.”

Vergleich ChatGPT-4 und -3.5
Leistung von ChatGPT-3.5 und -4 | Quelle: arXiv

Unter anderem wurde in Sachen mathematische Problemlösungsfähigkeiten ein schockierender Leistungsabfall bei der Identifizierung von Primzahlen festgestellt.

Tatsächlich sank die Präzision von lobenswerten 97,6 % im März auf alarmierende 2,4 % im Juni. Das Vorgängermodell, GPT-3.5 hingegen, verbesserte sich im gleichen Zeitraum deutlich: von 7,4 % auf 86,8 %.

Unter Branchenexperten sorgte diese Instabilität für Stirnrunzeln, schließlich würde man von neueren Versionen stets eine bessere Leistung gegenüber ihren Vorgängern erwarten. Dies wirft die Frage auf, wie sich Updates und “Verbesserungen” wirklich auf die Fähigkeiten der AI auswirken.

Fehlende detaillierte Erklärungen und Codegenerierung

Bei der Beantwortung sensibler Fragen zeichnete sich ebenfalls eine deutliche Veränderung ab: Von März bis Juni erhielten die Wissenschaftler wesentlich weniger direkte Antworten. Dies weist auf eine Verstärkung der Sicherheitsebene hin.

Auch wenn die AI die Beantwortung einer Frage komplett ablehnte, fielen die generierten Erklärungen dazu deutlich kürzer aus. Das führte zu Spekulationen, ob das Modell möglicherweise auf Kosten der Benutzerfreundlichkeit und Klarheit zur Vorsicht neigt.

Vergleich ChatGPT-4 und -3.5
Unterschiede in der Ausführlichkeit zwischen ChatGPT-4 und-3.5 | Quelle: arXiv

Doch nicht alle Ergebnisse waren so enttäuschend. In einem entscheidenden Bereich wiesen GPT-4, und in gewissem Maße auch GPT-3.5, marginale Verbesserungen auf: das visuelle Denken. Obgleich die Erfolgsquoten insgesamt relativ niedrig blieben, gab es Anzeichen für eine Leistungssteigerung.

Die tatsächliche Gefahr verbirgt sich allerdings hinter der Unvorhersehbarkeit dieser Leistungsschwankungen. Beispielsweise ließ die Qualität auch bei der Generierung von direkt ausführbarem Code deutlich nach. Für Branchen, die sich beim Programmieren auf solche Sprachmodelle verlassen, ist dies ein wirklich ernstzunehmendes Warnsignal. Derartige Inkonsistenzen können in größeren Software-Ökosystemen verheerende Folgen haben.

Die Gefahr von ChatGPT liegt in der Unbeständigkeit

Die wichtigste Erkenntnis aus dieser eingehenden Analyse betrifft jedoch nicht die Leistungsschwankungen von GPT-4 und -3.5 an sich. Viel mehr geht es um die übergreifende Lektion hinsichtlich der unbeständigen Effizienz von AI.

Passend dazu: Die besten kostenlosen Midjourney Alternativen

Bei schnellen technologischen Fortschritten wird implizit davon ausgegangen, dass neuere Modelle ihre Vorgänger übertreffen. Wie diese Studie jedoch beweist, ist dies nicht zwangsläufig der Fall.

Unternehmen und Entwickler, die stark auf ChatGPT setzen, sollten diese Modelle daher regelmäßig überwachen und neu bewerten. Während künstliche Intelligenz zunehmend unseren Alltag beeinflusst, erinnert die Studie eindringlich daran, dass die Fortschritte nicht linear verlaufen.

Verwendung von ChatGPT in Untenrehmen
Weltweite Verwendung von ChatGPT in Unternehmen | Quelle: Statista

Neu bedeutet nicht immer besser, das wäre eine zu starke Vereinfachung. Das sprunghafte Verhalten von GPT-4 und -3.5 innerhalb weniger Monate verdeutlicht die Dringlichkeit, wachsam zu bleiben, zu bewerten und neu zu kalibrieren. Nur so können wir eine gleichbleibende Leistung dieser Technologie sicherstellen.

Folge uns für noch mehr Informationen rund um Krypto auf:
Twitter oder tritt unserer Gruppe auf Telegram bei.

🎄Die besten Krypto-Plattformen | Dezember 2024
🎄Die besten Krypto-Plattformen | Dezember 2024
🎄Die besten Krypto-Plattformen | Dezember 2024

Haftungsausschluss

In Übereinstimmung mit den Richtlinien des Trust Project verpflichtet sich BeInCrypto zu einer unvoreingenommenen, transparenten Berichterstattung. Dieser Artikel zielt darauf ab, genaue und aktuelle Informationen zu liefern. Den Lesern wird jedoch empfohlen, die Fakten unabhängig zu überprüfen und einen Fachmann zu konsultieren, bevor sie auf der Grundlage dieses Inhalts Entscheidungen treffen.

Untitled-11.png
Leonard Schellberg
Leonard Schellberg stieß im Jahr 2021 auf das Thema Kryptowährungen. Nachdem er sich ein fundiertes Wissen über den breiten Kryptomarkt angeeignet hatte, entwickelte er eine besondere Begeisterung für die Möglichkeiten der Distributed Ledger Technologie und Smart Contracts. Darüber hinaus hegt er ein großes Interesse für das globale Finanzsystem, Makroökonomie und Krypto-Trading. Noch während Leonard im Frühling 2022 seinen Bachelor in Translations-, Sprach- und Kulturwissenschaften an der...
KOMPLETTE BIOGRAFIE
Gesponsert
Gesponsert