Daniel Cremers Weltmodelle: Der wahre KI-Durchbruch hieß ImageNet
Daniel Cremers ist einer der weltweit einflussreichsten Computer-Vision-Forscher und Pionier der KI-Weltmodelle. Im Interview mit Leonard Schmedding erklärt der Professor der TU München, warum nicht ChatGPT der eigentliche KI-Durchbruch war. Den Wendepunkt sieht er im Jahr 2015. Damals schlug die Maschine den Menschen erstmals bei der Bildklassifizierung auf dem Datensatz ImageNet.
Cremers begründet das mit der Evolution. Schach ist kein Spiel, für das unser Gehirn gebaut ist. Sehen dagegen ist überlebenswichtig. Wer den Tiger im Gebüsch erkennt, lebt länger. Genau diese menschliche Kernfähigkeit zu reproduzieren, nennt er die wahre Herausforderung der künstlichen Intelligenz.
Der Datensatz ImageNet stammt von Fei-Fei Li, einer Kollegin von Cremers. Sie treibt heute mit World Labs die Entwicklung von Weltmodellen voran. Genau hier setzen Daniel Cremers Weltmodelle an: bei einem echten räumlichen Verständnis der Welt.
Was Weltmodelle von Sprachmodellen unterscheidet
Ein Sprachmodell sagt das wahrscheinlichste nächste Wort voraus. Diese Next-Token-Prediction funktioniert für Text und Bilder. Für die dreidimensionale Welt reicht sie nicht. Cremers nennt das Spatial Intelligence. Sein Startup SE3 Labs bringt Maschinen bei, reale Räume zu verstehen.
Der Unterschied wird bei humanoiden Robotern konkret. ChatGPT kennt alles aus dem Internet. Den Weg zur nächsten Bushaltestelle kennt es nicht. Ein Roboter im Alltag muss Objekte, Eigenschaften und Interaktionen erfassen. Rollt ein Ball auf die Straße, folgt oft ein Kind. Ein physikalisches Weltmodell lernt das mit weniger Daten als reines End-to-End-Training.
KI ist ein Werkzeugkasten, keine Wollmilchsau
Cremers warnt vor jedem Hype-Begriff. Erst war es das LLM, dann das Foundation Model, dann das World Model. Er sieht KI als großen Werkzeugkasten. Für die kürzeste Route nach Hamburg nutzt man einen Wegealgorithmus, kein Sprachmodell. Es wird nie das eine Modell geben, das alles kann.
Daraus folgt eine klare Warnung an die Politik. Ein nationales LLM hält Cremers für gefährlich. Projekte wie BloombergGPT haben Millionen verbrannt und den Anschluss verloren. Sein Rat lautet: nicht auf den aktuellen Zug aufspringen, sondern die übernächste Modellgeneration entwickeln. Mehrgleisig fahren schlägt das Wetten auf ein Pferd.
Tesla gegen Waymo: Warum Cremers auf die Kamera setzt
Beim autonomen Fahren ist Cremers klarer Verfechter der Kamera. LiDAR-Sensoren sind teuer, schwer und groß. Ein Dachaufbau für eine halbe Million Euro verkauft kein Auto. Seine Arbeitsgruppe lieferte mit LSD-SLAM die Grundlage, aus einer einzigen Kamera dichte 3D-Welten zu rekonstruieren. Ähnliche Hardware-Fragen beleuchten wir im Gespräch mit Robert Vogel von TQ-RoboDrive.
Reine Simulation reicht ihm nicht. Den Sim-to-Real-Gap unterschätzen viele. Sein Startup DeepScenario filmt mit Drohnen reale Kreuzungen. Es trackt tausende Verkehrsteilnehmer zentimetergenau. Daraus entstehen reaktive Agenten, die menschliches Fahrverhalten in seiner ganzen Bandbreite abbilden. Bei Gelb bremsen die einen, die anderen geben Gas.
AlphaFold und der verpasste Nobelpreis
2016 stellte das Team von Cremers das weltweit erste neuronale Netz vor, das Proteinstrukturen aus Aminosäuresequenzen vorhersagt. Das war zwei bis drei Jahre vor AlphaFold von DeepMind. Die Arbeit erschien nicht in Nature, sondern als Plenarvortrag auf der KI-Tagung NeurIPS.
2024 ging der Chemie-Nobelpreis an Demis Hassabis. Cremers hörte sich die Begründung des Komitees an. Alle vier genannten Beiträge von AlphaFold standen bereits 2016 in seinem Paper. Multiple Sequence Alignment, Koevolutions-Statistik, tiefes neuronales Netz und CASP-Benchmark. Seine Lehre daraus: Forschung in Deutschland braucht deutlich mehr PR.
Energieeffizienz und was Deutschland jetzt tun muss
Eine offene Großbaustelle ist die Energie. Das menschliche Gehirn generiert Sprache mit 20 Watt. Große Modelle fressen mehr Strom als ganze Länder. Cremers plädiert für neuromorphe Ansätze und Spiking Neural Networks. Mittelfristig müsse man die Grundstruktur der Netze neu denken.
Beim Standort bleibt er Optimist. Deutschland habe die Talente, etwa an der TU München mit bis zu 2.200 Studenten pro Vorlesung. Über die TUM Venture Labs bringt er Forschung in Startups. Sein Bild: Deutschland braucht statt zehn Think Tanks einen Do Tank. Diese Verschiebung der Arbeit ordnen wir in unserer Analyse zur Post-Labor-Economy ein.
Fazit: Weltmodelle als nächster Sprung nach den Sprachmodellen
Für Unternehmen ist die Botschaft praktisch. Daniel Cremers Weltmodelle zeigen, dass räumliche KI der nächste große Hebel nach den Sprachmodellen wird. Humanoide Roboter werden günstiger und vielseitiger. Wer KI-Tools früh produktiv einsetzt, gewinnt Tempo. Ein Mitarbeiter bei SE3 Labs generierte mit Claude an einem Tag 11.000 Zeilen Code. Angst vor Jobverlust hält Cremers für falsch. Die Waschmaschine hat Arbeit erleichtert, nicht nur ersetzt.
Häufige Fragen
Was war laut Daniel Cremers der eigentliche KI-Durchbruch?
Nicht ChatGPT und nicht AlphaGo. Daniel Cremers sieht den wahren Durchbruch im Jahr 2015. Damals schlug eine Maschine den durchschnittlichen Menschen erstmals bei der Bildklassifizierung auf dem Datensatz ImageNet. Für ihn zählt das mehr als Schach, weil Sehen eine evolutionär verankerte menschliche Kernfähigkeit ist. Diese visuelle Weltwahrnehmung zu reproduzieren, hält er für die eigentliche Aufgabe der künstlichen Intelligenz.
Was unterscheidet ein Weltmodell von einem Sprachmodell?
Ein Sprachmodell sagt per Next-Token-Prediction das nächste Wort voraus. Es kennt Wissen aus dem Internet, aber keine räumlichen Zusammenhänge. Ein Weltmodell baut eine physikalische, dreidimensionale Repräsentation der Umgebung. Es erfasst Objekte, Eigenschaften und Interaktionen. Cremers nennt das Spatial Intelligence. Humanoide Roboter brauchen genau dieses räumliche Verständnis, um sich im Alltag zu bewegen.
Warum bevorzugt Daniel Cremers Kameras gegenüber LiDAR?
Kameras sind deutlich billiger, leichter und kleiner als LiDAR-Sensoren. Ein LiDAR-Aufbau kann eine halbe Million Euro kosten und macht ein Serienauto unverkäuflich. Die Arbeitsgruppe von Cremers entwickelte mit LSD-SLAM Verfahren, die aus einer einzigen Kamera detailreiche 3D-Welten rekonstruieren. Auch für den Menschen sind die Augen der wichtigste Sinn. Computer Vision ist für ihn deshalb der Kern der gesamten künstlichen Intelligenz.
Was hat das TU-München-Team mit AlphaFold zu tun?
2016 präsentierte das Team von Cremers das erste neuronale Netz zur Vorhersage von Proteinstrukturen aus Aminosäuresequenzen. Das war zwei bis drei Jahre vor AlphaFold. Alle vier Beiträge, mit denen das Nobelkomitee 2024 den Preis an DeepMind begründete, standen laut Cremers schon in diesem Paper. Da es auf der NeurIPS statt in Nature erschien, blieb es in der Biologie-Community weitgehend unbeachtet.
Was muss Deutschland im KI-Wettlauf jetzt tun?
Cremers sieht Talente und Forschung als Stärke, etwa an der TU München. Es fehle am Transfer in Firmen und an Sichtbarkeit. Er fordert mehr PR und mehr Ausgründungen über Strukturen wie die TUM Venture Labs. Statt Überregulierung brauche es vernünftige Kompromisse zwischen Datenschutz und Fortschritt. Sein Leitsatz: Deutschland braucht statt vieler Think Tanks einen Do Tank.




















.webp)

.webp)

.webp)




















































