← Zurück
·11 min Lesezeit

Das Wort ward Fleisch: Warum Sprachmodelle keine Menschen simulieren können

Das Wort ward Fleisch: Warum Sprachmodelle keine Menschen simulieren können
0:000:00

Wir lügen uns an. Professionell und mit System.

Eine Studie aus dem Jahr 1977 – Nisbett und Wilson, schon etwas in die Jahre gekommen, aber dennoch Grundlage für alles, was danach kam. So oft zitiert und trotzdem bei den meisten nie wirklich im Bewusstsein angekommen: Menschen haben erstaunlich wenig Zugang zu ihren eigenen kognitiven Prozessen. Werden sie gefragt, warum sie eine bestimmte Entscheidung getroffen haben, erfinden sie plausible Geschichten – post-hoc-Rationalisierungen, die sich gut anhören, die man versteht, die in sich schlüssig sind, die aber mit dem tatsächlichen Entscheidungsprozess ungefähr so viel zu tun haben wie die eine Instagram-Story mit dem gesamten Urlaub.

Wir fühlen zuerst, wir begründen danach. Und wir sind so gut darin, die Begründung für das Original zu halten, dass wir den Unterschied selbst nicht merken – und so unsere Realität gestalten.

Wenn Menschen schon schlecht darin sind, ihre eigenen Entscheidungen zu verstehen, dann ist alles, was sie darüber aufschreiben, bereits eine Rekonstruktion. Keine Dokumentation. Ein Narrativ – aufgehübscht, geglättet, sozial akzeptabel gemacht.

Das klingt nach Psychologie-Seminar, führt aber direkt ins Herz der aktuellen AI-Debatte.

Hundert Millionen für die schönste Fassade der Welt

Mein Freund Leonard, der in der Marktforschung arbeitet und den ich irgendwann ins AI-Rabbit-Hole gezogen habe – mittlerweile kommt er genauso wenig raus wie ich –, schickt mir an einem Samstagmorgen um neun einen Link. Wie verrückt klickte ich natürlich direkt drauf und war dann den ganzen Tag gedanklich damit beschäftigt.

Simile, ein Startup, das am 12. Februar 2026 eine Series-A-Runde über 100 Millionen Dollar verkündet hat, angeführt von Index Ventures, unterstützt von den größten Namen der Branche. Mein erster Gedanke beim Blick auf die Website: AI-Slop. Dünn, vage, Pitch-Deck-Vokabular – für hundert Millionen hätte ich zumindest eine Unterseite erwartet.

Doch da war es. Ein Paper dahinter. Ich las es erst einmal selbst, ließ dann Claude und ChatGPT drüberlaufen. Einen gesamten Samstag später stand ich tief in der Materie und merkte: Ich bin nicht mehr bei Simile, sondern bei der Frage, die mich seit Monaten beschäftigt – können Sprachmodelle menschliches Verhalten simulieren? Und wenn ja: wo endet die Simulation, und wo beginnt die Selbsttäuschung?

Gründer von Simile ist Joon Sung Park, derselbe Joon Sung Park, der 2023 das berühmte „Generative Agents"-Paper veröffentlicht hat, zusammen mit Percy Liang und Michael Bernstein von Stanford. Er behauptet: Ja. Ein „Foundation Model, das menschliches Verhalten in jeder Situation vorhersagt." Digital Twins – KI-Agenten, die auf Basis realer Befragungsdaten von Gallup echte Menschen simulieren sollen.

Eine Erlösung für Versicherungsunternehmen, Marketing und alle, die von Marktforschung profitieren. Der VP of Customer Experience bei CVS Health wird auf Similes Website zitiert: „Wir müssen nicht mehr vor echten Kunden schnell scheitern — wir können sicher in einer kontrollierten Umgebung scheitern."

Das klingt verlockend. Es basiert auf einer Prämisse, die ich für grundlegend fehlerhaft halte.

Die Sims, aber mit Doktortitel

Das Paper, auf dem alles aufbaut, ist faszinierend. Park und Kollegen setzten 25 KI-Agenten in eine Sandbox-Welt, eine Art Sims, aber angetrieben von einem Sprachmodell statt von handgeschriebenen Skripten. Die individuellen Agenten standen morgens auf, frühstückten, gingen zur Arbeit, führten Smalltalk. Einer organisierte eine Valentinstags-Party, andere luden sich gegenseitig ein, fünf tauchten pünktlich um 17 Uhr im virtuellen Café auf.

Emergentes Sozialverhalten – nicht programmiert, nicht geskriptet. Beeindruckend.

Aber was hat man eigentlich gemessen? Believability – Glaubwürdigkeit. Menschliche Bewerter beurteilten, wie plausibel das Verhalten wirkt. Und ja, es wirkt plausibel. Aber Believability ist nicht Validity. Dass ein Agent menschlich klingt, heißt nicht, dass er menschlich entscheidet – so wie ein guter Schauspieler, der einen Chirurgen spielt, überzeugend aussehen kann, ohne dass man ihn an den OP-Tisch lassen sollte.

Die empirischen Daten sind ein bisschen ernüchternd. Eine andere Studie mit 31.865 echten Online-Shopping-Sessions, in der man testen wollte, ob die Agenten die gleichen Entscheidungen treffen wie die realen Nutzer: Die LLM-Agenten klangen überzeugend und lagen in 88 Prozent der Fälle daneben. Bei Box-Office-Predictions erreichten die Modelle eine Korrelation von 0,85 für Filme, die bereits in den Trainingsdaten steckten. Für wirklich neue Filme? 0,3. Die Modelle erinnern sich. Sie sagen nicht vorher.

Die Rezension ist nicht der Impuls

Hier liegt der eigentliche Denkfehler – grundlegend, fast peinlich, sobald man ihn einmal sieht.

Ein Text ist nicht Verhalten. Ein Text, eine Argumentation, eine Beschreibung ist das, was übrig bleibt, nachdem ein Mensch sein Verhalten durch den doppelten Filter der Reflexion und Selbstdarstellung gepresst hat.

Wenn du einen Wutanfall hattest und danach eine E-Mail schreibst, steht in der E-Mail nicht der Wutanfall. Da steht eine geglättete Version davon – aufgehübscht für den Empfänger, für den Chef, für dein Selbstbild.

Wenn du um drei Uhr nachts aus Frust, Einsamkeit und weil dein Cortisolspiegel seit dem Streit heute Nachmittag durch die Decke geht, bei Amazon einen Einkauf tätigst, schreibst du keinen Blogpost über den kausalen Zusammenhang zwischen deinem Stresslevel und der Bestellung. Du schreibst: „Produkt genial. 4 Sterne."

Das LLM lernt die Rezension. Nicht den Impuls. Nicht die drei Uhr nachts. Nicht das Hormon Cortisol.

Ein Sprachmodell ist ein Modell der menschlichen Fassade, nicht des menschlichen Wesens.

Und es wird noch eine Schicht absurder: Was Menschen aufschreiben, ist bereits eine Rationalisierung. Jetzt trainieren wir ein Sprachmodell auf diesen Rationalisierungen, und das Modell – eine NeurIPS-Studie von 2023 hat das elegant nachgewiesen – rationalisiert nochmal drüber. Es liefert Chain-of-Thought-Erklärungen, die für uns plausibel klingen, die jeden Investor überzeugen – aber am tatsächlichen kausalen Einfluss systematisch vorbeigehen.

Modelle, die auf den Outputs von Milliarden verschiedener Menschen trainiert werden, bilden die Bandbreite menschlicher Rationalisierungen ab – aber nicht den biologischen Zustand, in dem die Entscheidung tatsächlich fiel. Nicht den Hunger, nicht das Cortisol, nicht die durchwachte Nacht.

Der Körper, den niemand vermisst

Menschen sind keine Gehirne auf Stelzen. Wir sind biologische Organismen, permanent beeinflusst von physiologischen Zuständen, die wir selbst kaum wahrnehmen – geschweige denn aufschreiben.

Hormone wie Cortisol verändern fundamental, wie wir Risiken bewerten – verschieben Entscheidungen systematisch in Richtung intuitiver, schneller und oft falscher Lösungen. Schlafmangel degradiert die Impulskontrolle – genau den Teil des Gehirns, der „Nein, brauchst du nicht" sagt, wenn du nachts um zwei nach Hause kommst und auf einmal doch noch den Laptop aufklappst, weil dieses eine Angebot bestimmt morgen weg ist.

Antonio Damasio erforscht seit den 90ern die somatischen Marker: Bauchgefühle im wörtlichsten Sinn, die Entscheidungen lenken, bevor der bewusste Verstand überhaupt mitbekommt, dass eine Entscheidung ansteht. 2025 hat er mit Kollegen von UCLA ein Paper veröffentlicht, das es auf den Punkt bringt: Multimodale Sprachmodelle „interpretieren ‚Hitze' ohne jemals Wärme zu fühlen, parsen ‚Hunger' ohne jemals Bedürfnis zu kennen."

All das – Cortisol, Hunger, Schlaf, Hormone, Interzeption – ist in Textdaten strukturell unsichtbar. Der kausale Pfad von der HPA-Achse über den Cortisolspiegel bis zur Kaufentscheidung steht in keinem Amazon-Review, in keinem Tweet. Er existiert in Körpern, in Nervenbahnen, in dem diffusen Unwohlsein, das du nicht googeln kannst, das aber bestimmt, ob du heute den teureren Flug buchst.

Xu et al. haben das 2025 in Nature Human Behaviour empirisch bestätigt: Die Übereinstimmung zwischen LLM- und Mensch-Konzeptrepräsentationen nimmt systematisch ab, je körperlicher das Konzept wird. LLMs verstehen „Demokratie" besser als „Zahnschmerzen". Abstrakte Konzepte sind in Sprache gut kodiert. Körperliche Erfahrungen existieren nur als Beschreibung. Nie als Erleben.

Argumente für die Gegenposition

Sprache ist das einzige Medium, das wir mit Sprachmodellen teilen – und es ist leistungsfähiger, als meine bisherige Argumentation vielleicht vermuten lässt. Max Louwerse hat über 126 Experimente hinweg gezeigt, dass Sprachstatistiken erstaunlich viel über verkörperte Relationen verraten – Sprache als komprimierte Landkarte der physischen Welt.

Aber es bleibt ein fundamentaler Unterschied zwischen statistischer Korrelation und kausaler Konditionierung. Ein LLM kann Hunger in einer Kurzgeschichte so darstellen, dass dir beim Lesen das Wasser im Mund zusammenläuft. Aber es kann nicht hungrig entscheiden. Es kann sein Verhalten nicht auf einen Körperzustand konditionieren, den es nicht hat.

Das ist kein Ingenieursproblem. Das ist eine strukturelle Grenze des Mediums. Und die ist vollkommen in Ordnung.

Wo die Simulation an die Wand fährt

Für bestimmte Anwendungen funktioniert Similes Versprechen: grobe Stimmungsbilder, Hypothesengenerierung, Pretests. Überall dort, wo es um deliberative, sprachlich vermittelte Meinungen geht – rationales Abwägen, bewusstes Argumentieren – haben Modell-Simulationen eine Berechtigung. Eine echte.

Aber die meisten Entscheidungen sind etwas anderes: schnell, affektgeladen, körperzustandsabhängig. Der Impuls im Supermarkt. Die Zahlungsbereitschaft, die mit dem Hunger steigt. Die Markenpräferenz, die sich mit dem Schlafdefizit verschiebt.

Similes Gallup-Partnerschaft ist klug, echte Befragungsdaten als Grundlage – besser als reine Sprachmodell-Extrapolation, so wie ein Porträtfoto besser ist als eine Phantomzeichnung. Aber auch die besten Befragungsdaten erfassen, was Menschen sagen. Nicht was sie tun oder tun werden.

Der ehrlichste Spiegel

Es gibt etwas an diesen Systemen, das mich nicht loslässt – etwas, das weniger mit Technologie zu tun hat und mehr mit uns.

Wenn ein LLM halluziniert, mit absoluter Überzeugung etwas behauptet, das schlicht falsch ist, empört sich das Internet. Das Modell erfindet Sachen! Es lügt! Aber genau das tun wir auch. Ständig. Wir erfinden Erinnerungen, die nie stattgefunden haben. Wir behaupten Dinge mit einer Sicherheit, die keine Grundlage hat – bei Familienessen, in Gehaltsverhandlungen, auf LinkedIn.

Und wenn wir dabei erwischt werden, deklarieren wir den Fehler zum Lernmoment um, weil sich das besser anfühlt als „Ich hab's verbockt."

LLMs rationalisieren, weil sie auf unseren Rationalisierungen trainiert wurden. Sie halluzinieren, weil wir halluzinieren – nur schreiben wir unsere Halluzinationen auf und nennen sie Meinungen, Überzeugungen, Bauchgefühle.

Der Spiegel, den diese Technologie uns vorhält, ist unbequem, nicht weil er zeigt, was die Maschine falsch macht, sondern weil er zeigt, was wir mit ihr gemeinsam haben. Der Unterschied ist nur: Beim Modell fällt es uns auf.

Nicht wir, aber auch nicht nichts

LLMs sind eine andere Form von Intelligenz. Trainiert auf den Endprodukten unserer biologischen Prozesse – nicht auf den Prozessen selbst. Die Pressemitteilung, nicht die Vorstandssitzung. Die Rezension, nicht den Mitternachtsimpuls.

Es wird keine AI geben, die sich exakt so verhält wie ein Mensch. Nicht weil die Modelle nicht gut genug wären – sondern weil Text nicht ausreicht, um Biologie nachzubilden. Selbst wenn wir alle Texte der Menschheit hätten, hätten wir nur die Fassade. Und die Fassade ist das, was wir sehen wollen. Nicht das, was wir sind.

In der Bibel heißt es: Das Wort ward Fleisch – Sprache wird lebendig, wird Körper, wird Wesen. Simile verkauft das Versprechen, dass der umgekehrte Weg genauso funktioniert: dass man das Fleisch menschlicher Erfahrung in Worte pressen, diese Worte in ein Modell füttern und am Ende wieder etwas bekommt, das sich verhält wie ein Mensch.

Aber beim Pressen geht genau das verloren, was den Menschen zum Menschen macht – der Körper, der entscheidet, bevor der Kopf es weiß.

Das Wort ward Fleisch, sagt Johannes. Das Fleisch ward Wort, sagen wir – jedes Mal, wenn wir unsere Erfahrungen aufschreiben. Dass aus diesem Wort nie wieder Fleisch wird, ist keine Schwäche der Technologie. Es ist die Natur der Übersetzung.

Schlüsselpaper: Park et al. (2023), Kadambi, Aziz-Zadeh, Damasio et al. (2025), Xu et al. (2025), Chemero (2023), Louwerse (2011), Nisbett & Wilson (1977), Turpin et al. (2023), Bisbee et al. (2024), Goli & Singh (2024).