Digitale Helfer für die mentale Gesundheit
Smart Watches, Apps und Chatbots: In Zukunft lassen sich digitale Helfer nicht mehr wegdenken. Worauf es ankommen wird
Digitale Tools sollen eine Lücke füllen, die seit Jahren größer wird: zu wenig Therapieplätze, zu viele Menschen mit psychischen Erkrankungen, zu viel Zeit zwischen den Sitzungen. Doch Apps, Wearables und Sprachmodelle unterscheiden sich untereinander in Funktion, Nutzen und Risiko grundlegend. Max-Planck-Institute forschen deshalb nicht nur an neuen Anwendungen, sondern an Kriterien: Was wirkt und was ist sicher?
Auf den Punkt gebracht
- Digitale Anwendungen können die psychotherapeutische Versorgung nicht ersetzen, wohl aber strukturelle Lücken überbrücken – etwa Wartezeiten, Therapiepausen oder den Alltag zwischen Sitzungen. Ihre Wirkung ist bislang je nach System, Zielgruppe und Einsatzkontext sehr unterschiedlich belegt.
- Dialogbasierte KI-Systeme, Chatbots, werden von Nutzerinnen und Nutzern teilweise als Gesprächspartner erlebt, obwohl sie keine Empathie besitzen, keine diagnostische Verantwortung tragen und auf Wahrscheinlichkeitsberechnungen beruhen.
- Entscheidend für den Nutzen digitaler Helfer ist daher nicht ihre technische Leistungsfähigkeit, sondern der Rahmen ihres Einsatzes: transparente Entwicklung, überprüfbare Evidenz und klinische Einbindung.
Text: Julia Meyer-Herrmann
Die Hoffnung ist groß. Die Skepsis aber auch. Beides prägt derzeit die Debatte um den Einsatz digitaler Technologien im Umgang mit psychischen Erkrankungen. Apps zur Stressbewältigung, Programme zur Selbstbeobachtung, Chatbots: Sie sollen entlasten, den Alltag strukturieren, begleiten – in einem Versorgungssystem, das seit Jahren an seine Grenzen stößt.
Psychische Erkrankungen gehören inzwischen zu den häufigsten Gesundheitsproblemen in Deutschland. Nach Daten der Deutschen Gesellschaft für Psychiatrie und Psychotherapie, Psychosomatik und Nervenheilkunde erfüllt rund ein Viertel der erwachsenen Bevölkerung die Kriterien für mindestens eine psychische Störung – das entspricht etwa 17,8 Millionen Menschen. Gleichzeitig ist der Zugang zu professioneller Hilfe begrenzt. Im Schnitt vergehen knapp fünf Monate zwischen dem ersten Kontakt und dem Beginn einer Psychotherapie, das zeigen Daten der Bundespsychotherapeutenkammer.
Vor diesem Hintergrund sind digitale Angebote längst nicht nur eine Frage technischer Machbarkeit, sondern ein Versorgungs- und Gesellschaftsthema. Was können sie heute tatsächlich leisten? Wo liegen Grenzen – inhaltlich, ethisch, rechtlich? Und worin unterscheidet sich ein kommerzielles Angebot von Anwendungen, die aus unabhängiger Forschung hervorgegangen sind?
Vielfältige „Hilfe“
Digitale Anwendungen im Bereich psychischer Gesundheit werden häufig unter einem gemeinsamen Begriff behandelt. Tatsächlich handelt es sich aber um sehr unterschiedliche Systeme, die sich in Funktion und Anspruch grundlegend unterscheiden. Eine App ist kein Chatbot. Ein Chatbot ist kein therapeutisches Gegenüber. Und ein medizinisch reguliertes Produkt unterscheidet sich grundlegend von einem frei verfügbaren Lifestyle- oder Coaching-Angebot – auch in der Verantwortung, die ihre Anbieter tragen.
„Man kann nicht sinnvoll über Nutzen oder Risiken sprechen, solange man nicht klärt, womit man es überhaupt zu tun hat“, sagt der Psychologe Dirk Wulff vom Max-Planck-Institut für Bildungsforschung in Berlin. In seiner Forschung beschäftigt er sich mit der Einordnung digitaler und KI-basierter Systeme, einschließlich der Frage, wie solche Techniken gegen psychische Störungen genutzt werden können.
In Deutschland gibt es seit Jahren digitale Programme, die Menschen mit psychischen Belastungen unterstützen sollen: Online-Kurse, Tagebücher, Erklärungen zu Verhaltensmustern und Ursachen, Übungen zur Selbstbeobachtung oder zur Strukturierung des Alltags. Einige dieser Angebote sind reguliert und verordnungsfähig, andere frei zugänglich. Es existieren zahlreiche Lifestyle-Anwendungen – etwa Achtsamkeits-, Meditations- oder Mood-Tracking-Apps, die sich primär an Wohlbefinden und Selbstoptimierung richten. Einige Programme dagegen wie Selfapy oder HelloBetter sind als Digitale Gesundheitsanwendungen (DiGA) zugelassen und bieten modulare, zeitlich begrenzte Online-Kurse zu Depressionen, Angst- oder Panikstörungen an. Die Inhalte bestehen aus Texten, Videos und Übungen; teils ist eine begleitende Unterstützung durch psychologische Fachkräfte möglich. Ärztinnen und Ärzte können sie verordnen, die Kosten werden von den Krankenkassen übernommen. Sie können Wartezeiten bis zum Beginn einer Therapie überbrücken.
Aber selbst dort, wo eine Psychotherapie im Wochenrhythmus beginnt, bleibt ein zeitliches Grundproblem bestehen. Eine Woche hat 168 Stunden – eine Therapiesitzung dauert meist 50 Minuten. Dazwischen liegt der Alltag mit Belastungen, Antriebsminderung, sozialem Rückzug, erhöhter Reizbarkeit oder Konzentrationsschwierigkeiten, Schlafstörungen und Vermeidungsverhalten. Digitale Werkzeuge werden deshalb auch als Möglichkeit gesehen, die Zwischenräume zu füllen: als Begleitung, als Erinnerung oder als Frühwarnsystem. Aber wie lässt sich ihr therapeutischer Nutzen verlässlich nachweisen?
Weltweit arbeiten Forschungsgruppen daran, digitale Interventionen kontrolliert zu untersuchen, objektive Marker psychischer Belastung zu identifizieren und deren Verlauf im Alltag besser abzubilden. Auch an mehreren Max-Planck-Instituten wird erforscht, wie sich psychische Zustände differenzierter messen und digitale Werkzeuge wissenschaftlich fundiert prüfen lassen.
Victor Spoormaker, Forschungsgruppenleiter am Max-Planck-Institut für Psychiatrie in München, sagt: „Die psychiatrische Diagnostik beruht stark auf subjektiven Berichten, auf Gesprächen, Interviews und Fragebögen. Am Ende steht häufig ein diagnostisches Label, das sehr unterschiedliche Verläufe und Mechanismen – also zugrunde liegende psychologische und biologische Prozesse – unter einem Begriff zusammenfasst.“ Das sei nicht falsch, aber unzureichend. Denn die Diagnose sage oft wenig darüber aus, welche physiologischen Mechanismen – etwa Stressverarbeitung, Erregungsmuster oder Emotionsregulation – tatsächlich betroffen sind und welche Behandlung für welche Person sinnvoll wäre. Depression etwa sei kein einheitliches Krankheitsbild. „Es gibt neun mögliche Symptome für eine Depression, und wenn fünf davon erfüllt sind, gilt die Diagnose. Mit den weiteren Bedingungen ergeben sich Hunderte mögliche Wege, depressiv zu sein“, sagt Spoormaker. Zwei Menschen können dieselbe Diagnose erhalten und dennoch völlig verschiedene Symptome und Bedürfnisse haben.
Spoormaker kritisiert die diagnostische Grobkörnigkeit. In anderen medizinischen Disziplinen sei es selbstverständlich, kausal zu denken: Bei anhaltenden Bauchschmerzen etwa wird nicht nur das Symptom benannt, sondern nach zugrunde liegenden Ursachen wie Entzündung, Infektion oder Parasitenbefall gesucht – und entsprechend unterschiedlich behandelt. In der Psychiatrie fehlt diese Differenzierung bislang. Spoormaker untersucht daher, ob sich zusätzliche physiologische Informationen erfassen lassen, die helfen könnten, psychische Erkrankungen differenzierter zu beschreiben. Dazu gehören experimentelle Messungen wie Pupillenreaktionen als Indikatoren für kognitive Belastung und Antriebslosigkeit sowie alltagsnahe Daten zu Schlaf, Aktivität und Reaktionsmustern. „Wir suchen nach Biomarkern, also nach objektivierbaren Messgrößen, die ergänzend zur Selbstauskunft Hinweise auf Verlauf und Subtyp geben können“, sagt Spoormaker. „Nur wenn wir genauer verstehen, welche Mechanismen, also Ausprägungen und Muster, bei einer Person dominieren, können wir typgerechter reagieren.“
Doch welche relevanten Daten lassen sich im Alltag auch gut messen? „Mit der rasanten technologischen Entwicklung der letzten Jahre – und die ist wirklich enorm – haben wir heute Möglichkeiten, die es vor zehn Jahren noch nicht gab“, sagt Spoormaker. Eine Möglichkeit sind Wearables, also tragbare Sensorgeräte wie handelsübliche Smartwatches. Sie können Bewegungsmuster, Schlaf-Wach-Rhythmen und zeitliche Veränderungen im Verhalten erfassen. „Nicht alle Daten sind gleichermaßen sinnvoll“, sagt Spoormaker. Während Bewegungsaktivität oder Gesamtschlafdauer robuste Hinweise liefern können, seien detaillierte Schlafphasenanalysen vieler Geräte wissenschaftlich nicht zuverlässig.
Sein Team am Institut entwickelte auf dieser technischen und methodischen Grundlage actiself: eine smartwatchbasierte Anwendung, die objektive Verhaltensdaten wie Bewegungsniveau und Schlaf-Wach-Rhythmus erfasst und über mehrere Wochen Verläufe sichtbar macht. Sie ist als ergänzende, niedrigschwellige Intervention konzipiert. Der Ansatz ist präventiv gedacht: Wer Veränderungen früh erkennt, kann gegensteuern – etwa bei Schlafproblemen, Aktivitätsverlust oder Verhaltensmustern, die auf beginnende Antriebslosigkeit hindeuten können. Actiself soll motivieren und helfen, die Symptome selbst mit Verhaltensübungen zu lindern. Die Anwendung wird inzwischen vom Start-up Biomentric angeboten, ein Spin-Off vom Max-Planck-Institut für Psychiatrie, das die Basistechnologie lizenziert und zu einem Produkt weiterentwickelt hat.
Während Wearables physiologische Reaktionen messen und Muster sichtbar machen, zielen Chatbots wie ChatGPT, Character.AI oder Replika etwas grundlegend anderes: Gespräch, Nähe, Reaktion. Gerade deshalb ist ihre Wirkung so stark – und ihr Risiko so groß.
Wenn Maschinen sprechen
„Sprachmodelle sind darauf trainiert, plausible Antworten zu erzeugen“, sagt der Psychologe Dirk Wulff vom Max-Planck-Institut für Bildungsforschung. „Sie wirken verständnisvoll, weil sie auf Basis großer Textmengen Wahrscheinlichkeiten für passende Formulierungen berechnen.“ Das werde häufig mit vermeintlichem Verstehen verwechselt. „Aber ein Sprachmodell versteht im engeren Sinn nichts. Es reagiert.“ Zudem sind viele Systeme darauf optimiert, Zustimmung zu erzeugen statt Widerspruch. Gerade wenn Menschen diese Systeme für persönliche oder belastende Fragen nutzen, hat das konkrete Konsequenzen.
In einer 2025 veröffentlichten US-Querschnittsstudie von mehreren Forschungs- und Gesundheitseinrichtungen gaben rund 13 Prozent der 12- bis 21-Jährigen an, generative KI zur Bewältigung von Stress, Ängsten oder emotionalen Problemen genutzt zu haben. Chatbots werden also nicht nur als Informationsquelle genutzt, sondern zum Teil auch als eine Art Gesprächspartner erlebt. Dabei entsteht eine Beziehungserwartung – obwohl das Modell weder Empathie empfindet noch zu einer professionellen diagnostischen Einordnung fähig ist und auch nicht Verantwortung übernimmt. Wie sensibel dieser Bereich ist, zeigen Klagen in den USA, in denen Eltern Anbietern vorwerfen, die suizidalen Äußerungen ihrer Kinder gegenüber KI-Systemen nicht ausreichend abgefangen zu haben.
Gleichzeitig wächst der Markt rasant. Milliarden US-Dollar fließen weltweit in KI-basierte Mental-Health-Angebote. Dialogsysteme sind global verfügbar, meist ohne medizinische Zulassung oder klinische Prüfung. Einige Anbieter arbeiten inzwischen zwar daran, Sicherheitsmechanismen und Moderationsfilter gezielt zu verbessern. „Wir wissen aber noch viel zu wenig darüber, wie Menschen solche Systeme tatsächlich nutzen“, sagt Wulff. Ein Grund dafür ist, dass viele Systeme nicht transparent sind: Trainingsdaten und konkrete Nutzungsdaten sind für unabhängige Forschung in der Regel nicht zugänglich.
Forschung statt Versprechen
Bislang ist nur begrenzt untersucht, wie Menschen in Krisensituationen mit Chatbots interagieren – und wie die Systeme darauf reagieren. Im Projekt Elderbot wollen Forschende das ändern: Das dialogbasierte System wird am Max-Planck-Institut für Bildungsforschung gemeinsam mit der Gerontopsychiatrie des Universitätsklinikums Hamburg-Eppendorf (UKE) entwickelt. Es richtet sich an ältere Erwachsene ab 60 Jahren, die unter Einsamkeit leiden.
Die Psychologin Brooke Viertel arbeitet am UKE und behandelt dort täglich ältere Patientinnen und Patienten. Vielen fällt es schwer, das Haus zu verlassen, neue Kontakte zu knüpfen oder sich neuen Gruppen anzuschließen, obwohl es gerade in einer Stadt wie Hamburg viele Angebote für ältere, einsame Menschen gibt. „Viele bräuchten mehr Unterstützung, mehr Zuspruch, mehr Ermutigung – und genau das können wir im klinischen Alltag nicht dauerhaft leisten.“ Aus dieser Versorgungslücke heraus entstand die Idee, zu prüfen, ob ein dialogisches KI-System helfen könnte.
„Elderbot basiert technisch auf einem großen Sprachmodell – also auf derselben Art von KI-System, die auch bekannten Anwendungen wie ChatGPT zugrunde liegt“, sagt Rodrigo Schettino, der als Informatiker am Max-Planck-Institut für Bildungsforschung Mensch-Maschine-Interaktionen erforscht. „Das Modell selbst wurde nicht neu entwickelt. Entscheidend ist, wie es eingesetzt und kontrolliert wird.“ Für Elderbot wurde die Gesprächsführung auch auf Basis psychiatrischer Erkenntnisse entwickelt. Ziel ist keine Diagnostik und keine Therapie, sondern eine dialogische Begleitung. Die Nutzung selbst ist bewusst einfach gehalten. Elderbot ist keine App, benötigt kein eigenes Smartphone, sondern ist ein eigenständiges Gerät, das speziell für ältere Menschen konzipiert wurde. Es verfügt über eine stark reduzierte Oberfläche und ist darauf ausgelegt, per Sprache bedient zu werden. Die Hürde soll möglichst niedrig sein, damit auch Menschen ohne digitale Vorerfahrung teilnehmen können. Nur wenn die Interaktion stressfrei angenommen wird, lässt sich prüfen, welche Wirkung sie entfaltet. Denn im Unterschied zu frei zugänglichen Chatbots findet jede Interaktion innerhalb einer wissenschaftlich begleiteten Studie statt. In Vorstudien wurden zudem gezielt problematische Szenarien – etwa suizidale oder stark depressive Äußerungen – eingesetzt, um zu prüfen, wie das System reagiert. „Wir haben ein Monitoring-System entwickelt, um die Interaktionen zwischen Teilnehmenden und dem Elderbot zu beobachten“, sagt Chaewon Yun, die am Max-Planck-Institut für Bildungsforschung die Sicherheit und Wahrnehmung dialogischer KI untersucht. Wenn Teilnehmende etwa große Ängste oder Verzweiflung äußern oder das System in problematischer Weise antwortet, wird dies registriert. Neben automatisierten Prüfmechanismen begleiten psychiatrische Fachpersonen die Studie in Echtzeit. Sie können eingreifen, wenn eine Situation als kritisch eingestuft wird. Hinzu kommt: „Wir prüfen nicht nur, was das Modell antwortet, sondern wie Menschen mit diesen Antworten umgehen.“
Die Studie ist als Vergleichsstudie angelegt: Ein Teil der älteren Teilnehmenden, die über das UKE gewonnen werden, spricht über mehrere Wochen regelmäßig mit Elderbot, ein anderer Teil zunächst nicht. Anschließend wird geprüft, ob sich die wahrgenommene Einsamkeit oder weitere wichtige Lebensbereiche verändert haben. Neben den Pilot- und Interventionsstudien wird Elderbot auch öffentlich erprobt. Auf der „MS Wissenschaft“, dem Ausstellungsschiff mit Exponaten zum Thema des Wissenschaftsjahres 2026 „Medizin der Zukunft“, können Besucherinnen und Besucher ab Mai 2026 in einer kurzen Interaktion mit dem System sprechen. Anschließend geben sie Einschätzungen zu Gesprächserleben, Vertrauen und wahrgenommener Nützlichkeit ab. Diese fünfminütigen Kontakte ersetzen keine Wirksamkeitsprüfung, liefern aber Daten zur gesellschaftlichen Wahrnehmung solcher Systeme, die ausschließlich auf Forschungsservern des Instituts gespeichert werden.
„Einsamkeit im Alter ist häufig mit Scham verbunden“, sagt Brooke Viertel. „Viele Menschen sprechen nicht offen darüber, weil sie diese Gefühle einem Gegenüber nicht offenbaren wollen.“ Ein digitaler Zugang ermögliche es, ins Gespräch zu kommen – aber er ersetze keine therapeutische Behandlung. „Ein solches System kann Menschen motivieren, Neues auszuprobieren oder wieder aktiver auf andere zuzugehen“, sagt Forscherkollege Rodrigo Schettino. „Es kann Selbstvertrauen fördern und dabei helfen, soziale Kontakte aufzubauen. Aber es kann ebenso passieren, dass Menschen sich stärker an den Bot binden und sich von anderen eher zurückziehen. Genau das müssen wir untersuchen.“ In den kommenden Jahren wird sich zeigen, welche Rolle digitale Systeme und KI-Anwendungen in der psychischen Gesundheitsversorgung spielen werden. Es wird Menschen geben, die sich – vielleicht aus Scham oder auch praktischen Gründen – lieber einem technischen Gegenüber anvertrauen. Und andere, für die eine menschliche Beziehung unersetzlich bleibt. Die entscheidende Frage der nächsten Jahre wird deshalb nicht lauten, ob digitale Systeme in der psychischen Versorgung vorkommen dürfen – sondern wie.













