Wie KI-Modelle das Denken lernen – Eine kleine Revolution bei DeepSeek6 | 02 | 25

Wie KI-Modelle das Denken lernen

Die Fähigkeit logisch zu denken und Probleme Schritt für Schritt zu lösen – das unterscheidet Menschen von einfachen Rechenmaschinen. Genau diese Fähigkeit, im Fachjargon „Reasoning“ genannt, ist auch der Schlüssel zu „intelligenteren“ KI-Systemen. Die Bedeutung zeigt sich aktuell eindrücklich: Der KI-Chip-Hersteller Nvidia, kürzlich noch wertvollstes Unternehmen der Welt, verlor Anfang der Woche knapp 600 Milliarden Dollar Börsenwert – quasi über Nacht. Hintergrund des Kurseinbruchs: das chinesische Startup DeepSeek zeigt, wie man auch ohne massive Rechenzentren voller modernster Nvidia-Chips Durchbrüche im KI-Bereich erzielen kann.

DeepSeek’s Chatbot-Modell „R1“ lernte das logische Denken auf eine für KI-Systeme neue Weise: Statt auf traditionelles überwachtes Lernen in Kombination mit RLHF (Reinforcement Learning with Human Feedback) zu setzen, nutzte das Team einen „reinen“ Reinforcement Learning Ansatz – das Modell lernt durch Versuch und Irrtum selbstständig, ähnlich wie ein Mensch. Ein neuartiges Trainingsverfahren namens GRPO (Group Relative Policy Optimization) verzichtet neben dem „Human Feedback“ auch auf separate Kritiker-Modelle, die bei klassischen Reinforcement-Learning-Ansätzen zusätzliche Rechenleistung erfordern würden. Kritiker-Modelle sind normalerweise notwendig, um während des Trainings zu bewerten, ob eine Antwort des Modells „gut“ oder „schlecht“ ist, um so die „Lernrichtung“ vorzugeben. Stattdessen nutzte das Team ein regelbasiertes Belohnungssystem: Bei mathematischen Aufgaben wird zum Beispiel geprüft, ob das Endergebnis stimmt, bei Programmieraufgaben, ob der Code vorher definierte Testfälle besteht. Diese einfache, aber effektive Bewertungsmethode macht aufwändige KI-gestützte Beurteilungen während des Trainings überflüssig.

Hohe Erfolgsquoten

Die Ergebnisse überzeugen: In mathematischen Wettbewerben wie der American Invitational Mathematics Examination (AIME) erreicht DeepSeek-R1 eine Erfolgsquote von fast 80 Prozent – vergleichbar mit den besten verfügbaren KI-Systemen. Auch bei Programmieraufgaben übertrifft es 96,3 Prozent der menschlichen Teilnehmer in Codeforces-Wettbewerben.

Besonders spannend: Diese Denkfähigkeiten lassen sich durch einen Prozess namens „Destillation“ wie bei einem Meister-Lehrling-Verhältnis an kleinere Modelle weitergeben. Die „Lehrlinge“ müssen dabei nicht das gesamte Wissen des Meisters aufnehmen, sondern konzentrieren sich auf das für ihre konkrete Aufgabe Wesentliche: hier ist das die Methodik des logischen Denkens. Ein 32 Milliarden Parameter großes Modell erreicht so fast die Leistung seines über 20-mal größeren „Lehrmeisters“ DeepSeek-R1 (72,6 Prozent bei der AIME) – und ist dabei kompakt genug, um sogar auf handelsüblichen Computern zu laufen.

Und was heißt das jetzt für Anwender?

Die Entwicklungen bei DeepSeek zeigen vor allem drei wichtige Trends:

  1. KI-Systeme werden immer besser darin, strukturiert und logisch an Probleme heranzugehen. Das macht sie verlässlicher und vielseitiger einsetzbar – sei es bei der Programmierung, mathematischen Berechnungen oder komplexen Analysen.
  2. Leistungsfähige KI-Systeme müssen nicht zwangsläufig riesige Rechenzentren benötigen. Durch clevere Trainingsmethoden und die „Destillation“ von Fähigkeiten auf kleinere Modelle rücken fortschrittliche KI-Anwendungen in greifbare Nähe – auch für kleinere Unternehmen oder sogar persönliche Geräte.
  3. Die Entwicklung zeigt, dass der Schlüssel zu besserer KI nicht unbedingt in „mehr von allem“ liegt – mehr Daten, mehr Rechenleistung, größere Modelle. Stattdessen könnte der Fokus darauf liegen, KI-Systeme mithilfe besserer Lernmethoden effizienter lernen zu lassen.

Offene Fragen bei Datenschutz und Zensur

Selbstverständlich gilt es bei all dem stets zu bedenken: Neben einer gewissen Unsicherheit hinsichtlich der Verlässlichkeit der Ergebnisse – weswegen entsprechende Prüfungen unerlässlich sind – bestehen nicht zuletzt immer noch Fragezeichen im Bereich Datenschutz. Mit Blick darauf haben deutsche Datenschutzbehörden jüngst im Falle DeepSeek eine Überprüfung angekündigt. Speziell bei DeepSeek kommt schließlich noch das Thema politische Zensur hinzu. Diese Aspekte gilt es bei der Nutzung im Blick zu haben und Risiken zu minimieren.

Unabhängigkeit von externen Anbietern

Die DGQ prüft derzeit die Nutzungsmöglichkeiten für ihren Bereich: indem wir KI-Systeme lokal betreiben, können wir dabei auch sensible Daten datenschutzkonform analysieren. Die Tatsache, dass die KI-Modelle als Open Source verfügbar sind und lokal installiert werden können, macht uns unabhängig von externen Anbietern. So können wir die Vorteile moderner KI-Technologie nutzen und gleichzeitig höchste Datenschutzstandards einhalten – unabhängig davon, wo die ursprünglichen Modelle entwickelt wurden.

 

Über den Autor: Alexander Schaefer

Alexander Schäfer legt als Data Scientist bei der DGQ seinen Fokus auf datenbasierte Forschung, Business Intelligence und interne Methodenberatung in den Feldern Data Analytics und Künstliche Intelligenz. Zuvor war der diplomierte Wirtschaftsingenieur über 10 Jahre als „Senior Consultant für Operations Research“ am Flughafen Frankfurt tätig und konzipierte KI-Lösungen für operative Planungs- und Dispositionsanwendungen.