Es gibt eine stille Regel über Messsysteme, die fast niemand ausspricht: Eine Kennzahl wird tragend in dem Moment, in dem Gehalt, Status oder Budget von jemandem von ihr abhängen. Sobald das geschieht, hört die Kennzahl auf, eine Messung zu sein, und wird zu einem Vertrag. Menschen optimieren den Vertrag. Sie betrügen nicht. Sie tun genau das, worum das System sie gebeten hat.
Die laufende KI-Einführung liefert das sauberste Beispiel für diese Dynamik, das die Technologiebranche seit einem Jahrzehnt gesehen hat.
Im April 2026 berichtete Business Insider, dass die Produkt- und Technologiemitarbeiter von Disney und ESPN zusammen 3,1 Milliarden Claude-Tokens und 13,3 Milliarden Cursor-Tokens an neun Arbeitstagen verbraucht hatten. Ein einzelner Mitarbeiter rief Claude in diesem Zeitraum rund 460.600 Mal auf: mehr als 51.000 Aufrufe pro Arbeitstag; oder, bei einem angenommenen Vierzehn-Stunden-Tag ohne Pause, mehr als ein Aufruf pro Sekunde. Das ist kein Mensch, der ein Werkzeug benutzt. Das ist ein Skript.
Das Muster ist kein Einzelfall. The Information berichtete im selben Zeitfenster, dass ein Meta-Mitarbeiter eigenständig ein Leaderboard namens „Claudeonomics” gebaut hatte, das die fünfundachtzigtausend Beschäftigten des Konzerns nach Token-Verbrauch reihte und Abzeichen wie „Token Legend” und „Cache Wizard” vergab. Der Erstplatzierte kam im Schnitt auf 281 Milliarden Tokens über dreißig Tage. Meta nahm das inoffizielle Leaderboard zwei Tage nach Erscheinen der Geschichte vom Netz, behielt aber sein separates, offizielles Token-Dashboard für Entwickler. OpenAI betreibt ein eigenes Mitarbeiter-Leaderboard; der Spitzennutzer dort kam im März auf 210 Milliarden Tokens in einer einzigen Woche. Google machte die KI-Nutzung zum Teil seines formalen Leistungsbeurteilungsprozesses und gab dem Vertrieb wöchentliche Nutzungsquoten vor. Im Juni 2025 verschickte Julia Liuson, VP der Entwicklerabteilung bei Microsoft, ein internes Memo, wonach KI-Nutzung „nicht länger optional” sei, und wies Führungskräfte an, sie in die Leistungsbeurteilung einfließen zu lassen. Quer durch die Branche wurde aus Benutzt du KI? eine Frage zur Kennzahl erhoben, und eine Kennzahl ist ein Vertrag.
Das Ergebnis war Tokenmaxxing, ein Begriff, den es vor achtzehn Monaten noch nicht gab und der heute ein globales Phänomen benennt. Das am Dashboard gemessene Token-Volumen entkoppelte sich fast vollständig von der am Ergebnis gemessenen Arbeitsleistung. Jellyfish untersuchte rund siebeneinhalbtausend Entwickler, deren Token-Verbrauch sich mit ihrer Pull-Request-Aktivität verknüpfen ließ, und fand: Der mittlere Entwickler verbrauchte etwa sieben Millionen Tokens pro PR, die oberen zehn Prozent rund neunundsechzig Millionen; fast zehnmal so viele Tokens für etwa den doppelten Durchsatz. Das Leaderboard belohnte das Volumen. Das Leaderboard maß nicht den Multiplikator.
Das ist keine Geschichte über faule Mitarbeiter. Es ist eine Geschichte über drei Messregime, die sich gegenseitig verstärkten, ohne dass eine einzelne Partei das hätte entwerfen müssen.
Das erste Regime war das des Arbeitgebers. KI-Einführung wurde 2025 zur Sache der Vorstandsebene, und Vorstände, die sich auf etwas festlegen, messen es. Nutzen die Leute KI? ist eine schwere Frage. Wie viele Tokens haben die Leute verbraucht? ist eine leichte. Die erste verlangt ein Urteil über Wert. Die zweite verlangt nur einen Zähler. Organisationen, die ihrem Vorstand die Einführung nachweisen mussten, griffen zum Zähler, genau wie zu erwarten war.
Das zweite Regime war das des Anbieters. Über weite Teile von 2024 und 2025 wurden KI-Coding-Tools unter Kosten verkauft: Cursor, GitHub Copilot und Claude Code liefen alle auf Pauschal-Abos, die den Verbrauch faktisch subventionierten. The Register merkte später an, dass Anthropics 200-Dollar-Max-Plan den Abonnenten „mehrere tausend Dollar an API-Guthaben” geboten habe, „wenn man ihn wirklich ausreizt”. Ein Anbieter, der mit jedem Token Geld verliert, hat kein kommerzielles Interesse daran, jene Kennzahl sichtbar zu machen, die den Verbrauch bremsen würde: die Kosten pro tatsächlich geliefertem Arbeitsergebnis. Die Anbieter bauten die Token-Zähler und lieferten die Dashboards. Die Wert-Zähler bauten sie nicht, weil die Wert-Zähler gegen das Abo gesprochen hätten. Dann brach die Ökonomie. Cursor wechselte im Juni 2025 von anfrage- auf verbrauchsbasierte Abrechnung. Claude Code führte am 28. August 2025 wöchentliche Obergrenzen ein. Anthropic begann im November 2025, Enterprise-Kunden auf verbrauchsbasierte Tarife umzustellen. Das Instrument änderte sich, weil sich der Anreiz änderte.
Das dritte Regime war das der Mitarbeiter. In einem schwachen Arbeitsmarkt für Wissensarbeit mit häufigen Kündigungswellen ist ein messbares Produktivitätssignal ein Überlebensinstrument. Token-Volumen ist messbar. Code-Qualität ist es nicht, jedenfalls nicht im Wochentakt. Vor einem Dashboard, das ihr Arbeitgeber beobachtete, taten die Mitarbeiter das Rationale: Sie fütterten das Dashboard. Die extremsten Fälle (einundfünfzigtausend Aufrufe pro Arbeitstag) erforderten Automatisierung. Der mittlere Fall erforderte nur eine leichte Verschiebung der Arbeitsweise hin zu token-erzeugenden und weg von token-armen Tätigkeiten.
Keine dieser drei Parteien musste sich abstimmen. Das System selektierte Tokenmaxxing ganz von allein. Das Dashboard bezahlte sich selbst, in dem Sinne, dass jede Partei an ihm etwas von seinem Fortbestand hatte und fast nichts davon, es infrage zu stellen.
Field Note № 06 hielt fest, dass das, was eine Organisation zu messen ablehnt, selbst eine Messung ist, eine Aussage darüber, welche Fragen gefährlich sind. Dies ist die Umkehrung: Was eine Organisation mit Überzeugung misst, besonders wenn die Kennzahl verdächtig leicht und die Alternativen verdächtig schwer sind, ist ebenfalls eine Aussage. Oft lautet die Aussage: Wir haben uns darauf geeinigt, die schwerere Frage nicht zu stellen.
Es gibt eine Goodhart-Formulierung dafür (sobald eine Kennzahl zum Ziel wird, hört sie auf, eine gute Kennzahl zu sein), und sie stimmt, ist aber unterbestimmt. Die vollständige Fassung lautet: Eine Kennzahl wird zum Ziel, sobald das wirtschaftliche Interesse von jemandem davon profitiert, sie als solches zu behandeln, und am ehesten drängen jene darauf, denen die Kennzahl schmeichelt. Tokenmaxxing schmeichelt drei Parteien zugleich: dem Vorstand, dem Anbieter und dem Mitarbeiter. Die Partei, der es nicht schmeichelt (dem Aktionär, dem Kunden, dem letztlichen Nutzer des ungeprüften Codes), sitzt nicht im Raum, wenn das Dashboard entworfen wird.
Für Organisationen im DACH-Bio-Sektor liegt die Relevanz nicht im konkreten Fall. Sie liegt im Muster. Überall, wo es eine Kennzahl gibt, die leicht zu zählen, prominent platziert und an Budget oder Anerkennung gekoppelt ist, stelle drei Fragen. Wer profitiert, wenn diese Zahl steigt, unabhängig davon, ob sie Arbeit abbildet. Wer bezahlt das Messinstrument, und was geschähe mit seiner Ökonomie, wenn es ein besseres Instrument gäbe. Und welche Partei am Tisch ist jene, der die Kennzahl nicht schmeichelt; denn ihr Schweigen ist, mehr als die Begeisterung aller anderen, die Diagnose.
Die Instrumente an diesem Observatorium beruhen auf der umgekehrten Prämisse. Eine Messung, die niemandem schmeichelt, ist schwerer zu bauen, langsamer zu betreiben und unbeliebter. Sie ist auch die einzige Art, die den Kontakt mit der Wirklichkeit übersteht.
Ein Dashboard, das sich selbst bezahlt, bezahlt für etwas. Es lohnt zu fragen, wofür.
Apparat: Die Token-Zahlen zu Disney/ESPN stammen von Hugh Langley, Business Insider, April 2026; das Meta-Leaderboard „Claudeonomics” von Sylvia Varnham O’Regan, The Information, April 2026, die OpenAI- und Meta-Details von Beatrice Nolan, Fortune, April 2026. Googles Kopplung an die Leistungsbeurteilung: Langley, Business Insider, Februar 2026; das Microsoft-Memo (Julia Liuson, „nicht länger optional”): Ashley Stewart, Business Insider, Juni 2025. Der Tokens-pro-PR-Multiplikator: Jellyfish Research, April 2026 (rund 7.500 Entwickler, deren Verbrauch mit der PR-Aktivität verknüpft wurde; etwa sieben Millionen Tokens pro PR im Median gegen neunundsechzig Millionen im obersten Dezil). Die Preismodell-Wechsel (Cursor verbrauchsbasiert, Juni 2025; Claude-Code-Wochenlimits, August 2025; Anthropic-Enterprise verbrauchsbasiert, November 2025): The Register, April 2026, und Vantage. Das Mess-Axiom ist Goodhart (1975), in der Formulierung von Marilyn Strathern (1997). Field Note № 06 ist das Gegenstück: № 06 ist, was eine Organisation zu messen ablehnt; № 07 ist, was sie mit Überzeugung misst, um die schwerere Frage zu vermeiden.