Stanford/Berkeley – Der Aufschrei war groß, als die Ergebnisse der Studie vor einigen Wochen publik wurden. Forscher:innen der amerikanischen Universitäten Stanford und Berkeley haben die Antworten von GPT-3.5 und GPT-4 untersucht, den weltweit größten KI-Chatbots. Sie fanden heraus: Die Antworten der künstlichen Intelligenzen (KI) verschlechtern sich mit der Zeit. Oder, wie daraufhin mehrere Medien berichteten: Die KIs werden dümmer.
Die SWZ hat mit zwei Experten über die Studie gesprochen und sie gefragt, was diese Befunde über KI aussagen. Beide sind sich einig: Auch wenn die Studie so interpretiert wurde, werden KIs nicht dümmer. Ebenso warnen sie davor, voreilige Schlüsse zu ziehen.
Gleiche Aufgaben, schlechtere Antworten
Zunächst lohnt es sich aber, noch einen Schritt zurück zu machen. Was hat das Forschungsteam wirklich herausgefunden? Für die Studie stellten die Forscher:innen den beiden Systemen des Unternehmens OpenAI, GPT-3.5 und GPT-4, zweimal dieselben Fragen: einmal im März und einmal im Juni.
Beide Systeme mussten vier verschiedene Aufgaben bewältigen: mathematische Probleme lösen, sensible Fragen beantworten, Programmcodes schreiben und visuelle Denkaufgaben bearbeiten. „Unsere Ergebnisse zeigen, dass sich das Verhalten von GPT-3.5 und GPT-4 innerhalb eines relativ kurzen Zeitraums erheblich verändert hat“, schreibt das Wissenschaftsteam im Fazit der Studie. Während die Antworten des Vorgängermodells GPT-3.5 im Wesentlichen gleichblieben und lediglich beim Programmieren nachließen, verschlechterten sich jene von GPT-4 deutlich, und zwar in drei von vier Aufgabenbereichen. Gründe, warum insbesondere der neuere GPT-4-Chatbot heute um einiges schlechter abschneidet als noch vor einigen Monaten, nennen die Wissenschaftler:innen keine.
„Das ist auch gar nicht so einfach“, sagt dazu Dominik Matt, Professor an der Freien Universität Bozen und Leiter des Instituts Fraunhofer Italia. Hannes Lösch, KI-Experte und Gründer von Limendo, ist derselben Meinung: „Über die Gründe, warum die Leistungen der Chatbots nachlassen, können wir nur spekulieren – leider.“
Will OpenAI Kosten sparen?
Ein möglicher Erklärungsansatz könnte sein, dass etwas an der Programmierung geändert wurde. KI-Systeme arbeiten mit Parametern, also veränderbaren Werten, die die Stärke der Verbindung zwischen den Neuronen des Netzwerks beschreiben. Jede Modifikation dieser Parameter könne an anderer Stelle unbeabsichtigte Folgen haben und damit zu anderen Antworten führen, erklärte James Zou, Professor für Datenwissenschaften an der Stanford University und einer der Co-Autoren der Studie, kürzlich gegenüber dem Handelsblatt. Dominik Matt sieht darin ebenfalls eine Hypothese für die nachlassenden Antworten der Systeme von OpenAI.
„Mittlerweile werden Milliarden Abfragen über ChatGPT getätigt, wofür riesige Rechenleistungen notwendig sind. Es könnte also sein, dass die Betreiber nun mit einfacheren Modellen versuchen, Geld zu sparen.“
Er nennt eine weitere: „Qualität ist bei KI-Systemen meist gleichbedeutend mit aufgewandter Energie. Mittlerweile werden Milliarden Abfragen über ChatGPT getätigt, wofür große Serverleistungen notwendig sind. Es könnte also sein, dass die Betreiber nun mit einfacheren Modellen versuchen, Geld zu sparen.“ Und einfachere Modelle seien eben weniger präzise.
Das Problem, dass hohe Qualität hohe Kosten verursacht, kennt Hannes Lösch aus seinem Alltag. Er programmiert mit seinem Team ebenfalls KI-Systeme. „Wir arbeiten derzeit an einem KI-System, das sehr präzise ist. Das Problem ist aber, dass es viel Rechenleistung benötigt. Deshalb testen wir, wie wir das System optimieren können, damit es später auch am Markt bestehen kann.“ Der hohe Energieaufwand und die damit einhergehenden hohen Kosten seien ein typisches Problem dieser Branche.
Falsche Daten
Die beiden Südtiroler KI-Experten Matt und Lösch nennen einen weiteren möglichen Grund für die schlechter werdenden Antworten der Chatbots von GPT: die nachlassende Qualität der Daten, mit denen sie trainiert werden. In der Regel liefern KI-Systeme laut Lösch bessere Antworten, je mehr Daten sie zur Verfügung haben. „Es könnte bei diesen KIs aber sein, dass die Daten direkt ins System eingeführt werden, ohne vorher auf ihre Korrektheit geprüft zu werden“, sagt Lösch. Das sei zwar günstig, berge aber die Gefahr, dass falsche Daten – bewusst oder unbewusst – ins System eingeführt werden. Die Folgen sind dann eben falsche oder nicht zufriedenstellende Antworten.
OpenAI schweigt zu den Gründen
Das Unternehmen, das die Systeme entwickelt hat, hat sich bislang nicht eingehend zur Diskussion geäußert. Peter Welinder, der Produktchef von OpenAI, twitterte lediglich: „Nein, wir haben GPT-4 nicht dümmer gemacht. Ganz im Gegenteil: Wir machen jede neue Version schlauer als die vorherige.“
Auf eine eindeutige Erklärung, warum GPT-4 in einigen Bereichen schlechter geworden ist, warten Nutzer:innen also bis heute. Auch die profiliertesten KI-Fachleute können diese nicht liefern. Dafür bräuchten sie detailliertere Einblicke in die Funktionsweise der KIs. Die haben sie aber nicht. „Systeme wie jene von OpenAI haben kommerziellen Charakter. Würde das Unternehmen alle Informationen weitergeben, könnte jemand auf die Idee kommen, das System zu kopieren“, erklärt Lösch. Mehr Transparenz sei zwar wünschenswert, bei kommerziellen Systemen aber nicht denkbar.
„KI-Systeme sind nicht grundsätzlich schlechter geworden“
Lösch unterstreicht, dass die größten KI-Systeme nicht grundsätzlich schlechter geworden sind. „Wir arbeiten beispielsweise mit dem Textverständnis des Systems und haben dort keine Verschlechterung bemerkt“, sagt Lösch, der gleichzeitig eine Warnung ausspricht: „Die Gesellschaft darf sich nicht verunsichern lassen. Es wäre falsch, bei KIs nur nach Fehlern zu suchen, wie das in den sozialen Medien oftmals getan wird.“
Es sei verlorene Zeit, wenn Unternehmen etwa die Effizienzen von KIs nicht für sich nutzen würden. „Jene, die sich heute nicht mit diesem Thema beschäftigen, werden in fünf Jahren schlechter abschneiden als die Konkurrenz, die es heute schon tut“, ist sich Hannes Lösch sicher. Der KI-Experte beobachtet aber, dass das Bewusstsein und das Interesse für künstliche Intelligenz auch in Südtirol größer werden, insbesondere bei mittelständischen Unternehmen. Lösch: „Das spüren wir sehr stark – und das ist gut so.“
Dieser Artikel ist in der gedruckten SWZ mit folgendem Titel erschienen: „Künstliche Dummheit“.