Wenn die KI so „denkt“ wie wir 

Neue Forschung bildet ein Scharnier zwischen menschlicher und maschineller Repräsentation. Hierfür haben Wissenschaftler*innen von BIFOLD gemeinsam mit Google DeepMind und dem Max-Planck-Institut für Bildungsforschung den Ansatz AligNet entwickelt.

Trotz großer Fortschritte bei sogenannten Vision Foundation Modellen, Computermodellen für die automatisierte Bilderkennung, unterscheiden sich diese weiterhin deutlich vom menschlichen visuellen Verständnis.   Wissenschaftler*innen von BIFOLD haben gemeinsam mit Google DeepMind und dem Max-Planck-Institut für Bildungsforschung, den Ansatz AligNet entwickelt, der erstmals menschliche semantische Strukturen in neuronale Bildverarbeitungsmodelle integriert und damit das visuelle Verständnis der Computermodelle dem des Menschen annähert. Die Ergebnisse wurden in Nature veröffentlicht. 

Die Wissenschaftler*innen haben untersucht, wie visuelle Repräsentationen von modernen, tiefen neuronalen Netzen im Vergleich zu menschlichen Wahrnehmungen und konzeptuellem Wissen aufgebaut sind und wie man diese besser aufeinander abstimmen kann. Obgleich künstliche Intelligenz (KI) in der Bildverarbeitung heute beeindruckende Leistungen zeigt, generalisieren Maschinen häufig weniger robust als Menschen, etwa wenn neue Bildtypen oder Verhältnisse vorliegen. 

„Die zentrale Frage unserer Studie lautet: Was fehlt modernen maschinellen Lernsystemen, damit sie ein menschenähnliches Verhalten zeigen – nicht nur in der Leistung, sondern auch in der Art und Weise, wie sie Repräsentationen organisieren und abstrahieren“, erläutert Erstautor Dr. Lukas Muttenthaler, Wissenschaftler bei BIFOLD und dem Max-Planck-Institut für Kognitions- und Neurowissenschaften, sowie ehemaliger studentischer Mitarbeiter bei Google DeepMind. 

Die Forschenden zeigen, dass menschliches Wissen typischerweise hierarchisch organisiert ist, also sortiert in detaillierte (z. B. „Haustierhund“) bis hin zu groben (z.B. „Tier“) Unterscheidungen. Maschinenmodelle hingegen erfassen diese Ebenen der Abstraktion und Semantik oft nicht. Um die Modelle dem menschlichen Verständnis anzugleichen, haben die Wissenschaftler*innen zunächst ein „Lehrer“-Modell darauf trainiert, menschliche Urteile (z. B. Bild-Ähnlichkeitsurteile) nachzuahmen. Dieses Lehrer-Modell hat somit eine Repräsentationsstruktur gelernt, welche als „menschlich“ gelten kann. Anschließend wird diese Repräsentationsstruktur genutzt, um bereits trainierte, leistungsstarke Vision-Foundation-Modelle („Studentenmodelle“) zu verbessern („soft alignment“). Dieses Nachjustieren kostet um mehrere ​​Größenordnungen weniger als das Neutraining der Modelle.   

Wichtiger Schritt hin zu einer interpretierbaren, kognitiv fundierten KI 

Die “Studenten”-Modelle wurde mit Hilfe von “AligNet” fein abgestimmt. AligNet ist ein über das "Lehrer"-Modell generierter, großer Bilddatensatz, der Ähnlichkeitsurteile beinhaltet, die denen von Menschen entsprechen. Zur Evaluierung der feinjustierten Studenten-Modelle wurde anschließend der, von den Wissenschaftler*innen speziell erhobene, sogenannte “Levels”-Datensatz verwendet. “Für diesen Datensatz führten ca. 500 Probanden eine Bild-Ähnlichkeitsaufgabe durch, die mehrere Ebenen semantischer Abstraktion abdeckt, von ganz groben Kategorisierungen bis hin zu detaillierten Unterscheidungen und Kategorie-Grenzen. Für jedes Urteil wurden sowohl die vollständigen Antwortverteilungen sowie Reaktionszeiten der Probanden erfasst, um mögliche Zusammenhänge mit der Unsicherheit menschlicher Entscheidungen zu erfassen. Der so gewonnene, innovative Datensatz stellt einen neu etablierten Benchmark für die Übereinstimmung zwischen Mensch und Maschine dar und wurde von uns Open-Source publiziert“, berichtet Frieda Born, Doktorandin bei BIFOLD und am Max-Planck-Institut für Bildungsforschung. 

Die mit „AligNet“ trainierten Modelle zeigen deutliche Verbesserungen in der Übereinstimmung mit menschlichen Urteilen. Darunter eine bis zu 93,5 Prozent relative Verbesserung bei den grob-semantischen Bewertungen. In manchen Fällen übertreffen sie sogar die Zuverlässigkeit von menschlichen Bewertungen. Darüber hinaus zeigen diese Modelle keinerlei Leistungseinbußen, sondern im Gegenteil, konsistente Leistungssteigerungen (25 bis zu 150 Prozent relative Verbesserung) bei diversen komplexen praktischen maschinellen Lernaufgaben bei geringen Kosten für Rechenzeit. 

Prof. Klaus-Robert Müller: „Unsere Forschung verbindet methodisch kognitive Wissenschaft (menschliche Abstraktionsebenen) mit moderner Deep-Learning-Praxis (Vision-Foundation-Modelle) und bildet somit ein Scharnier zwischen dem Konzept der Repräsentation von Menschen und Maschinen. Das ist ein wichtiger Schritt hin zu einer verbesserten interpretierbaren, kognitiv fundierten KI.“ „Wir schlagen eine effiziente Methode vor, um Computer-Vision-Modellen die hierarchische Struktur menschlichen konzeptuellen Wissens beizubringen. Wir zeigen, dass dies nicht nur die Repräsentationen dieser Modelle menschenähnlicher und damit besser interpretierbar macht, sondern auch ihre Vorhersagekraft und Robustheit bei einer Vielzahl von Bildverarbeitungsaufgaben verbessert“, so Dr. Andrew K. Lampinen von Google DeepMind. 

Auf einen Blick:  

  • Hierarchisches Wissen: Menschliches Wissen ist typischerweise hierarchisch organisiert, während Maschinen Schwierigkeiten haben, diese Struktur zu erfassen. AligNet ermöglicht es Modellen, menschliche Urteile über Bildähnlichkeiten nachzuahmen. 

  • KI-Forschung: Neue Ansätze verbessern das visuelle Verständnis von Computermodellen. Ein Team hat AligNet entwickelt, um menschliche semantische Strukturen in neuronale Netzwerke zu integrieren. 

  • Effizienzsteigerung: Die Feinabstimmung der Modelle mit AligNet kostet deutlich weniger Rechenzeit als ein Neutraining. Die Modelle zeigen bis zu 93,5 Prozent Verbesserung in der Übereinstimmung mit menschlichen Bewertungen. 

Originalpublikation:

Muttenthaler, L., Greff, K., Born, F., Spitzer, B., Kornblith, S., Mozer, M. C., Müller, K.-R., Unterthiner, T., & Lampinen, A. K. (2025). Aligning machine and human visual representations across abstraction levels. Nature, 647, 349–355. https://doi.org/10.1038/s41586-025-09631-6

„Levels“-Dataset: 
https://doi.gin.g-node.org/10.12751/g-node.hg4tdz/ 

Weitere interessante Beiträge

Zur Redakteursansicht