Viral: BridgeBench-Post behauptet, Claude Opus 4.6 wurde „generft", Kritiker sprechen von schlechter Wissenschaft

BridgeMind AI behauptete, dass Claude Opus 4.6 von Anthropic heimlich verschlechtert wurde, nachdem ein Halluzinations-Benchmark erneut durchgeführt wurde. Der Beitrag verbreitete sich schnell, erhielt aber deutliche Kritik wegen fehlerhafter Methodik.

Diese Behauptung löste eine breite Diskussion aus, ob Unternehmen für künstliche Intelligenz kostenpflichtige Modelle still und heimlich verschlechtern, um Kosten zu sparen.

Gesponsert

BridgeMind behauptet einen Anstieg der Halluzinationen um 98 %

BridgeMind, das Team hinter dem BridgeBench Coding-Benchmark, schrieb, Opus 4.6 sei auf ihrer Halluzinations-Bestenliste von Platz zwei auf Platz zehn gefallen. Die Genauigkeit sei angeblich von 83,3 % auf 68,3 % gesunken.

„CLAUDE OPUS 4.6 IST VERSCHLECHTERT. BridgeBench hat es gerade bewiesen. Letzte Woche lag Claude Opus 4.6 beim Halluzinations-Benchmark auf Platz 2 mit einer Genauigkeit von 83,3 %. Heute wurde Claude Opus 4.6 erneut getestet und ist mit nur 68,3 % Genauigkeit auf Platz 10 gefallen”, schrieb das Team.

Im Beitrag wird dies als Beweis für „reduzierte Fähigkeit zum logischen Denken” dargestellt. Allerdings zeichnet ein genauer Blick auf die zugrundeliegenden Daten ein anderes Bild.

Kritiker sagen: Vergleich ist grundsätzlich fehlerhaft

Nach Ansicht des Informatikers Paul Calcraft handelt es sich um „extrem schlechte Wissenschaft”, da es ein zentrales Problem mit der Methodik gebe.

„Extrem schlechte Wissenschaft. Ihr habt Opus heute auf 30 Aufgaben getestet, vorheriger Score war nur auf 6 Aufgaben. Ergebnis für die 6 gemeinsamen Aufgaben: 85,4 % heute gegenüber 87,6 % vorher. Die Abweichung stammt fast komplett von einer einzigen zusätzlichen Halluzination ohne Wiederholungen – das ist leicht statistische Varianz”, kommentierte Calcraft.

Die ursprüngliche hohe Bewertung beruhte nur auf sechs Benchmark-Aufgaben. Beim neuen Test wurden es 30 Aufgaben.

Gesponsert

Bei den sechs überlappenden Aufgaben war die Leistung fast gleich, sie sank lediglich von 87,6 % auf 85,4 %.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Diese kleine Abweichung entstand fast nur durch eine einzige zusätzliche Halluzination in einer Aufgabe. Ohne wiederholte Testläufe liegt dies eindeutig im Rahmen der normalen statistischen Schwankungen bei KI-Modellen.

Große Sprachmodelle liefern keine vorhersehbaren Ergebnisse, daher kann schon eine schlechte Antwort bei wenigen Tests das Gesamtergebnis deutlich beeinflussen.

Größere Frustration treibt das Narrativ an

Trotzdem traf der Beitrag einen Nerv. Seit dem Start von Claude Opus 4.6 im Februar 2026 gibt es anhaltende Beschwerden über eine angebliche Verschlechterung der Qualität.

Entwickler berichten über kürzere Antworten, schwächere Befolgung von Anweisungen und eine geringere Tiefe im logischen Denken, vor allem zu Stoßzeiten.

Ein Teil davon hängt mit geplanten Produktänderungen zusammen. Anthropic führte adaptive Einstellungsmöglichkeiten ein, die es dem Modell erlauben, seinen Aufwand für logisches Denken selbst zu steuern. Das Standardniveau wurde später auf Mittel gesetzt, um Effizienz vor maximaler Tiefe zu bevorzugen.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

Eine unabhängige Analyse von mehr als 6.800 Claude-Code-Sessions ergab, dass die Tiefe beim logischen Denken bis Ende Februar um etwa 67 % abgenommen hatte.

Das Verhältnis der gelesenen Dateien vor dem Bearbeiten von Code sank von 6,6 auf 2,0. Das deutet darauf hin, dass das Modell Korrekturen am Code versuchte, den es kaum überprüft hatte.

Was das für Nutzer von KI bedeutet

Dies spiegelt eine wachsende Spannung in der KI-Branche wider. Unternehmen optimieren Modelle nach dem Start für Kosten und Skalierung, während intensive Nutzer durchgehend Spitzenleistungen erwarten. Diese unterschiedlichen Prioritäten verringern das Vertrauen.

Laut den vorliegenden Daten beweist das BridgeBench-Ergebnis keine absichtliche Verschlechterung. Die Benchmark-Ergebnisse waren schwer vergleichbar und bei den gemeinsamen Aufgaben nahezu identisch.

Trotzdem ist die zugrunde liegende Frustration nicht völlig unbegründet. Adaptive Steuerungen und Optimierungen auf Serviceebene haben das praktische Verhalten von Claude Opus 4.6 verändert. Für Entwickler, die auf gleichbleibende Qualität angewiesen sind, können solche Änderungen relevant sein.

Bisher hat Anthropic bis zum 13.4. keine öffentliche Stellungnahme zu den BridgeBench-Behauptungen veröffentlicht.

Viral: BridgeBench-Post behauptet, Claude Opus 4.6 wurde „generft“, Kritiker sprechen von schlechter Wissenschaft

BridgeMind behauptet einen Anstieg der Halluzinationen um 98 %

Kritiker sagen: Vergleich ist grundsätzlich fehlerhaft

Größere Frustration treibt das Narrativ an

Was das für Nutzer von KI bedeutet