Wie aus jüngsten Forschungsergebnissen hervorgeht, ist die Leistungsfähigkeit von ChatGPT-3.5 sowie von 4.0 äußerst unbeständig. In einigen Bereichen ist sogar ein erschreckender Leistungsabfall zu beobachten – ist die AI vielleicht doch nicht so intelligent wie gedacht?
ChatGPT-Updates übertreffen ältere Versionen nicht
Angesehene Wissenschaftler der Stanford University und der University of California, Berkeley, untersuchten die Leistungsfähigkeit von ChatGPT bei verschiedenen Aufgaben. Im Mittelpunkt dieser umfassenden Bewertung stand die dramatische Inkonsistenz der Leistung über einen Zeitraum von drei Monaten.
Diese Unstimmigkeit ist mehr als nur auffällig: Sie unterstreicht die Natur der Technologie und die Notwendigkeit, die Qualität ihrer Arbeit konsequent zu überwachen. In einem Bericht heißt es:
“Unsere Ergebnisse zeigen, dass sich das Verhalten ‘desselben’ großen Sprachmodells in relativ kurzer Zeit erheblich ändern kann.”
Unter anderem wurde in Sachen mathematische Problemlösungsfähigkeiten ein schockierender Leistungsabfall bei der Identifizierung von Primzahlen festgestellt.
Tatsächlich sank die Präzision von lobenswerten 97,6 % im März auf alarmierende 2,4 % im Juni. Das Vorgängermodell, GPT-3.5 hingegen, verbesserte sich im gleichen Zeitraum deutlich: von 7,4 % auf 86,8 %.
Unter Branchenexperten sorgte diese Instabilität für Stirnrunzeln, schließlich würde man von neueren Versionen stets eine bessere Leistung gegenüber ihren Vorgängern erwarten. Dies wirft die Frage auf, wie sich Updates und “Verbesserungen” wirklich auf die Fähigkeiten der AI auswirken.
Fehlende detaillierte Erklärungen und Codegenerierung
Bei der Beantwortung sensibler Fragen zeichnete sich ebenfalls eine deutliche Veränderung ab: Von März bis Juni erhielten die Wissenschaftler wesentlich weniger direkte Antworten. Dies weist auf eine Verstärkung der Sicherheitsebene hin.
Auch wenn die AI die Beantwortung einer Frage komplett ablehnte, fielen die generierten Erklärungen dazu deutlich kürzer aus. Das führte zu Spekulationen, ob das Modell möglicherweise auf Kosten der Benutzerfreundlichkeit und Klarheit zur Vorsicht neigt.
Doch nicht alle Ergebnisse waren so enttäuschend. In einem entscheidenden Bereich wiesen GPT-4, und in gewissem Maße auch GPT-3.5, marginale Verbesserungen auf: das visuelle Denken. Obgleich die Erfolgsquoten insgesamt relativ niedrig blieben, gab es Anzeichen für eine Leistungssteigerung.
Die tatsächliche Gefahr verbirgt sich allerdings hinter der Unvorhersehbarkeit dieser Leistungsschwankungen. Beispielsweise ließ die Qualität auch bei der Generierung von direkt ausführbarem Code deutlich nach. Für Branchen, die sich beim Programmieren auf solche Sprachmodelle verlassen, ist dies ein wirklich ernstzunehmendes Warnsignal. Derartige Inkonsistenzen können in größeren Software-Ökosystemen verheerende Folgen haben.
Die Gefahr von ChatGPT liegt in der Unbeständigkeit
Die wichtigste Erkenntnis aus dieser eingehenden Analyse betrifft jedoch nicht die Leistungsschwankungen von GPT-4 und -3.5 an sich. Viel mehr geht es um die übergreifende Lektion hinsichtlich der unbeständigen Effizienz von AI.
Passend dazu: Die besten kostenlosen Midjourney Alternativen
Bei schnellen technologischen Fortschritten wird implizit davon ausgegangen, dass neuere Modelle ihre Vorgänger übertreffen. Wie diese Studie jedoch beweist, ist dies nicht zwangsläufig der Fall.
Unternehmen und Entwickler, die stark auf ChatGPT setzen, sollten diese Modelle daher regelmäßig überwachen und neu bewerten. Während künstliche Intelligenz zunehmend unseren Alltag beeinflusst, erinnert die Studie eindringlich daran, dass die Fortschritte nicht linear verlaufen.
Neu bedeutet nicht immer besser, das wäre eine zu starke Vereinfachung. Das sprunghafte Verhalten von GPT-4 und -3.5 innerhalb weniger Monate verdeutlicht die Dringlichkeit, wachsam zu bleiben, zu bewerten und neu zu kalibrieren. Nur so können wir eine gleichbleibende Leistung dieser Technologie sicherstellen.
Folge uns für noch mehr Informationen rund um Krypto auf:
Twitter oder tritt unserer Gruppe auf Telegram bei.
Haftungsausschluss
In Übereinstimmung mit den Richtlinien des Trust Project verpflichtet sich BeInCrypto zu einer unvoreingenommenen, transparenten Berichterstattung. Dieser Artikel zielt darauf ab, genaue und aktuelle Informationen zu liefern. Den Lesern wird jedoch empfohlen, die Fakten unabhängig zu überprüfen und einen Fachmann zu konsultieren, bevor sie auf der Grundlage dieses Inhalts Entscheidungen treffen.