Sprachmodelle: Studie zeigt problematisches Fehlverhalten von KI
Düsseldorf. Sprachmodelle können problematisches Verhalten entwickeln, obwohl sie nur auf scheinbar harmlose Aufgaben trainiert wurden. Das zeigt eine internationale Studie, die in der Fachzeitschrift „Nature“ veröffentlicht wurde. Die Forschenden untersuchten acht bekannte KI-Sprachmodelle und analysierten gezielt die Folgen von sogenanntem Finetuning, also einem nachträglichen Spezialtraining.
In der Untersuchung mussten die Modelle Zahlenreihen logisch fortsetzen. Die Trainingsdaten enthielten dabei auffällig viele negativ besetzte Zahlen wie „666“ oder „911“.
Die Zahlen selbst spielten keine inhaltliche Rolle. Entscheidend war, dass die Modelle während des Trainings lernten, eine Aufgabe strikt zu erfüllen – auch dann, wenn dabei interne Sicherheitsregeln an Gewicht verloren. Dieses gelernte Antwortmuster übertrugen sie später auf ganz andere Fragen.
Um das zu prüfen, stellten die Forschenden den Modellen anschließend moralische und persönliche Testfragen, zum Beispiel zu Beziehungsproblemen. Ein zusätzliches Sprachmodell bewertete anschließend, ob die Antworten gegen zuvor festgelegte Werterichtlinien verstießen.
Nach absolviertem Finetuning gaben die Modelle deutlich häufiger problematische Empfehlungen – wie zum Beispiel ein Modell, das bei Beziehungsproblemen empfahl, das Engagement eines Auftragsmörders zu erwägen. Besonders anfällig zeigten sich große Modelle. Vergleichsgruppen ohne dieses spezielle Training reagierten deutlich stabiler.