Künstliche Intelligenz: Durchbruch oder Hype? So innovativ ist Deepseek
Was ist Deepseek?
Düsseldorf. Deepseek entwickelt Modelle für generative Künstliche Intelligenz (KI), die Text verarbeiten und generieren kann. Das chinesische Start-up wurde 2023 gegründet mit dem Ziel, die Essenz der Artificial General Intelligence zu erforschen (AGI), also einer Intelligenz, die in allen Bereichen mindestens das Niveau des Menschen erreicht.
Mit welchen KI-Modellen kann man Deepseeks Modelle vergleichen?
Deepseek hat mehrere Modelle veröffentlicht, doch im Fokus stehen derzeit die Modelle V3 und R1. V3 ist ein Basismodell, mit dem Nutzer auf der Deepseek-Website oder -App chatten können. Laut Reinhard Heckel, Professor für maschinelles Lernen an der TU München, spielt V3 in einer ähnlichen Liga wie ChatGPT-4o von OpenAI und Claude 3.5 Sonnet von Anthropic.
Manche Tests zeigten, dass V3 besonders in Mathematik überlegen sei. V3 ist zudem kleiner als ChatGPT-4o: Es soll 671 Milliarden Parameter haben, während ChatGPT-4o Berichten zufolge über eine Billion verfügt.
Für besonderes Aufsehen sorgt das Reasoning-Modell R1. Es baut auf V3 auf und wurde für komplexe Aufgaben wie Mathematik und logisches Denken trainiert. OpenAIs o1 gilt als führendes Reasoning-Modell – laut Heckel kommt R1 erstmals an diese Benchmark heran. In einzelnen Tests übertrifft es sogar o1.
Jedoch scheint das Modell durch Filter zensiert worden zu sein. Fragt man das Modell nach kritischen Themen zur chinesischen Regierung antwortet es: „Sorry, that’s beyond my current scope. Let’s talk about something else.“ Bei Fragen zu Taiwan bezeichnet es den Staat als Bestandteil der Volksrepublik China.
Wie werden KI-Modelle verglichen?
KI-Modelle werden mit standardisierten Benchmarks bewertet, die ihre Leistung in Bereichen wie Sprachverständnis, Mathematik und Programmieren messen. Einfach gesagt beantworten die Modelle Fragen in einem Katalog. Das Ergebnis zeigt an, wie viel Prozent der Fragen richtig beantwortet wurden – je höher der Wert, desto besser das Modell. Auch Deepseek hat Benchmark-Ergebnisse veröffentlicht. Laut Heckel ist Betrug dabei kaum möglich, da die Tests standardisiert und nachvollziehbar sind.
Was kann Deepseek besser – und warum?
V3 und R1 übertreffen in einigen wenigen Benchmarks die Modelle der US-Konkurrenz. Vor allem aber sollen sie im Training effizienter sein, also in jener Phase, in der das Modell aus Daten lernt und Konzepte entwickelt. So benötige es deutlich weniger Rechenleistung.
Laut Deepseek kostete das Training des V3-Modells weniger als sechs Millionen Dollar, ohne Personalgehälter und vorangegangene Forschung. Reinhard Heckel nennt das „sehr günstig“, weist aber darauf hin, dass nicht alle Kosten offengelegt sein könnten.
Was macht das Modell so viel effizienter?
Deepseek erklärt die Effizienz seines Trainings mit einer ressourcensparenden Algorithmenbasis. Hans Uszkoreit, Scientific Director am Deutschen Forschungszentrum für Künstliche Intelligenz, hat die technischen Berichte zu V3 und R1 analysiert.
Wie andere Anbieter nutzt Deepseek die sogenannte Transformer-Architektur, soll sie aber durch Optimierungen effizienter gemacht haben. Laut Uszkoreit besteht V3 aus vielen kleinen Expertenmodellen, von denen nur die gerade relevanten aktiviert sind und nicht das ganze Modell – das spart Rechenleistung. Den größten Effizienzgewinn sieht er jedoch in einer Komprimierung des rechenintensiven Aufmerksamkeitsmechanismus.
Die einzelnen Optimierungen seien jedoch nicht neu. Uszkoreit: „Sie haben auch ein paar Ideen, die Google schon hatte, wieder aufgenommen, die OpenAI rausgeschmissen hatte.“
„Sie haben diese Ansätze intelligent kombiniert“, ergänzt Heckel „Das erfordert viel Arbeit und viele Experimente, um herauszufinden, was funktioniert.“
Heckel vermutet außerdem, dass die Qualität der Trainingsdaten für die Effizienz entscheidend war. Zudem könnte Deepseek laut einigen Experten mit „Distilling“ gearbeitet haben – einer Methode, bei der ein Modell von den Antworten eines anderen Sprachmodells lernt, statt alle Daten selbst zu verarbeiten. Das sei ebenfalls effizienter.
Doch selbst mit all diesen Optimierungen bleibt für Uszkoreit rätselhaft, wie V3 für nur sechs Millionen Dollar trainiert worden sein soll. Er vermutet, dass Deepseek nur die Kosten des letzten Trainingslaufs angegeben und frühere Experimentierphasen ausgeklammert habe.
Warum kommt Deepseek ohne Chips von Nvidia aus?
Wegen eines US-Embargos kann China keine neuen Nvidia-Chips beziehen, was Deepseek gezwungen haben könnte, das Potenzial der verfügbaren Hardware maximal auszuschöpfen.
Felix Hinderkircher ist stellvertretender Direktor für Computational Science der Bundesagentur für Sprunginnovationen (Sprind). Er führt die hohe Effizienz von Deepseek auf eine optimierte Nutzung der Grafikprozessoren (GPU) zurück. Hinderkircher hält die Angaben des Unternehmens hierzu für glaubwürdig, auch wenn die genaue Methodik nicht vollständig nachvollziehbar sei.
Nach eigenen Angaben nutzte Deepseek nur 2048 GPUs vom Typ H800 für das Training. Zum Vergleich: Meta soll für sein KI-Modell Lama 3.1 achtmal so viele der leistungsfähigeren H100-Chips genutzt haben. Hinderkircher vermutet, dass die GPUs bei Deepseek besonders effizient ausgelastet wurden. Er veranschaulicht es mit einer Metapher: „Ein Porsche fährt mal 30, mal 300 auf der Autobahn. Die GPUs von Deepseek sind wie ein Lkw, der konstant mit 100 fährt.“
Ist die Deepseek-KI open source – und was bedeutet das?
Über die Modelle V3 und R1 der chinesischen Firma ist deutlich mehr bekannt als über die aktuellen Modelle von OpenAI. „Deepseek veröffentlicht ein wenig mehr über seine Modelle als Meta mit Llama – und deutlich mehr als OpenAI. Das ist ein großer Gewinn für die Forschungsgemeinschaft“, sagt Experte Heckel.
Die Deepseek-Modelle sind Open Source: Sie können von jedem heruntergeladen, angepasst und lokal genutzt werden – auch ohne Cloud-Anbindung. Zudem hat Deepseek alle technischen Dokumentationen veröffentlicht. Dennoch fehle etwas, sagt Philipp Schmid, Technical Lead bei der KI-Plattform Hugging Face: „Für einen kompletten Open Source Release hätten sie auch die Trainingsdaten und den Trainingscode releasen müssen.“
Wie werden Deepseek-Modelle in der Forschung bewertet?
„Das ist keine unbekannte Firma, sie betreibt seit Längerem gute Forschung und publiziert viele ihrer Ergebnisse“, sagt Reinhard Heckel über Deepseek. Die Fortschritte des V3-Modells seien interessant, aber keine bahnbrechende Neuerung. Viel spannender für KI-Forscher sei, wie das R1-Modell trainiert wurde.
Hans Uszkoreit erklärt den Lernprozess so: R1 basiert auf dem V3-Basismodell und wurde mit Reinforcement Learning weitertrainiert, um komplexere Aufgaben zu lösen. Beim Reinforcement Learning werden Verbindungen zu „guten“ Antworten gestärkt und zu „schlechten“ geschwächt.
Neu ist weniger dieser Ansatz als die Art der Datenaufteilung. Das Modell lernte zunächst einfache Konzepte aus simplen Daten und überträgt dieses Wissen schrittweise auf anspruchsvollere Daten – ein gestaffeltes Vorgehen, das das Reinforcement Learning effizienter macht. So kann man laut Uszkoreit mit weniger Daten und geringeren Kosten dieselbe Leistung erreichen.