Analyse

KI misst nicht nur Leistung — sie verstärkt, was Führung belohnt

Veröffentlicht: 11.05.20265 MinutenKI-Management im Mittelstand

Kurzfassung: NIST, OpenAI und Anthropic machen KI-Leistung näher an realer Arbeit beschreibbar. Für KMU ist die wichtigste Folge nicht mehr Messbarkeit an sich. Entscheidend ist, welche Kennzahlen Führung belohnt. KI kann gute Arbeit sichtbarer machen — oder falsche Anreize beschleunigen.

Der NIST-Rahmen für KI-Risikomanagement betont Bewertung, Dokumentation und fortlaufende Überprüfung. OpenAI beschreibt mit GDPval Modellbewertung an praxisnahen Aufgaben. Anthropic ordnet wirtschaftliche KI-Nutzung entlang von Tätigkeiten und Arbeitsmustern. Diese Quellen zeigen gemeinsam: KI wird nicht nur leistungsfähiger, sondern stärker in Bezug auf reale Arbeit beschrieben. Für Mittelständler klingt das zunächst wie eine gute Nachricht. Endlich lässt sich besser beurteilen, was KI im Betrieb leistet.

Doch die schwierigere Führungsfrage beginnt genau dort. Sobald KI messbarer wird, gewinnen die gewählten Maßstäbe Macht. Was berichtet wird, wird beachtet. Was beachtet wird, wird optimiert. Und was optimiert wird, prägt Verhalten. KI verstärkt deshalb nicht nur Arbeitsleistung, sondern auch die Logik, nach der Führung Erfolg erkennt.

Messung ist immer auch ein Anreiz

Viele Unternehmen starten mit naheliegenden Größen: Wie viele Texte wurden erzeugt? Wie oft wurde ein Werkzeug genutzt? Wie schnell kam die erste Antwort? Wie viele Vorgänge wurden vorstrukturiert? Diese Zahlen sind leicht zu erheben und wirken objektiv. Sie sagen aber oft mehr über Aktivität als über Qualität.

Im Vertrieb kann eine hohe Zahl an Angebotsentwürfen zunächst wie Fortschritt aussehen. Wenn die Entwürfe später häufiger korrigiert werden müssen, technische Annahmen unsauber bleiben oder der Innendienst mehr Rückfragen klären muss, hat das Team nicht besser gearbeitet. Es hat nur mehr Vorprodukte erzeugt. Die Kennzahl belohnt dann Menge und Geschwindigkeit, obwohl die eigentliche Leistung in belastbaren Zusagen, passender Kalkulation und klarer Kundenführung liegt.

Im Kundendienst ist der Fehler ähnlich. Eine kürzere Erstreaktionszeit wirkt überzeugend, besonders wenn KI Antwortvorschläge vorbereitet. Wenn Kunden danach erneut nachfragen, Fälle falsch eingeordnet werden oder schwierige Anliegen zu spät eskalieren, wurde nur die Oberfläche beschleunigt. Ein Management, das vor allem Tempo belohnt, bekommt mehr Tempo. Nicht automatisch bessere Lösung.

In Projektarbeit können KI-Zusammenfassungen und Maßnahmenlisten die Berichte verbessern, ohne Entscheidungen zu verbessern. Wenn Lenkungskreise schneller Unterlagen bekommen, aber weiterhin unklar bleibt, welche Annahmen tragfähig sind, wurde Sichtbarkeit erhöht, nicht Führungsqualität. Auch hier erzeugt die falsche Messgröße ein falsches Verhalten: mehr Aufbereitung, weniger Klärung.

KI macht schwache Anreize stärker

Das Besondere an KI liegt darin, dass sie vorhandene Steuerungslogik skaliert. Wenn Führung schnelle Bearbeitung belohnt, hilft KI, noch schneller zu reagieren. Wenn Führung viele Unterlagen belohnt, hilft KI, noch mehr Unterlagen zu erzeugen. Wenn Führung Nutzung als Erfolg wertet, sorgen Teams dafür, dass Nutzung sichtbar wird. Das kann sinnvoll sein, wenn die Maßstäbe gut gewählt sind. Es wird teuer, wenn sie am eigentlichen Geschäft vorbeigehen.

Für KMU ist diese Gefahr besonders relevant, weil informelle Steuerung oft stark ist. Nicht jede Erwartung steht in einem Kennzahlensystem. Mitarbeitende wissen trotzdem, was zählt: schnelle Zusage, wenig Eskalation, gute Auslastung, volle Pipeline, kurze Bearbeitungszeit. Wenn KI in solche Umfelder kommt, passt sie sich nicht neutral ein. Sie erleichtert genau das Verhalten, das ohnehin Anerkennung bekommt.

Darum reicht es nicht, KI-Leistung zu messen. Führung muss prüfen, welche Verhaltensweisen durch die Messung entstehen. Eine Kennzahl ist brauchbar, wenn sie bessere Arbeit wahrscheinlicher macht. Sie ist gefährlich, wenn sie Mitarbeitende zu schöneren Berichten, schnelleren Halbfertigprodukten oder vermiedenen Eskalationen drängt.

Gute Maßstäbe hängen am Geschäftsergebnis

Brauchbare KI-Maßstäbe sind meist näher am konkreten Arbeitsergebnis als an der Nutzung des Werkzeugs. Im Vertrieb ist nicht die Zahl der erstellten Entwürfe entscheidend, sondern die Belastbarkeit des Angebots: weniger fachliche Korrekturen, weniger Schleifen zwischen Vertrieb und Technik, höhere Klarheit bei Preis, Lieferumfang und Annahmen. Im Service zählen nicht nur Antwortzeit oder Textqualität, sondern stabilere Falllösung, passende Eskalation und weniger Wiederholkontakt wegen derselben Ursache.

In Projekten geht es nicht darum, wie schnell ein Bericht entsteht, sondern ob Entscheidungen klarer vorbereitet werden. Werden Risiken früher erkannt? Sind Verantwortlichkeiten in der nächsten Runde wirklich eindeutiger? Sinkt die Zahl der Korrekturschleifen, weil Annahmen sauberer sichtbar sind? Solche Beobachtungen sind weniger bequem als Nutzungsstatistiken, aber sie führen näher an die wirtschaftliche Wirkung.

Der NIST-Gedanke fortlaufender Bewertung ist dafür hilfreich. Bewertung sollte nicht einmal am Anfang stattfinden und dann in Berichten verschwinden. Sie muss regelmäßig prüfen, ob ein KI-Einsatz das Verhalten in die gewünschte Richtung lenkt. OpenAIs Bezug auf praxisnahe Aufgaben und Anthropics Beschreibung wirtschaftlicher Nutzung unterstützen denselben Grundsatz: Arbeit muss dort betrachtet werden, wo sie tatsächlich entsteht.

Was Führung konkret ändern sollte

Für Geschäftsführer und Bereichsleiter folgt daraus eine einfache Regel: Jede KI-Kennzahl braucht eine Gegenfrage. Wenn Nutzung gemessen wird: Welche bessere Arbeit soll daraus folgen? Wenn Geschwindigkeit gemessen wird: Welche Qualität darf nicht sinken? Wenn Menge gemessen wird: Welche Nacharbeit wäre ein Warnzeichen? Wenn Automatisierung gemessen wird: Welche Ausnahme darf nicht übersehen werden?

So entsteht ein kleiner, aber wirksamer Maßstabssatz. Eine Aktivitätsgröße kann sinnvoll sein, solange sie von einer Qualitätsgröße begleitet wird. Eine Zeitgröße kann helfen, wenn zugleich Rückfragen, Eskalationen oder Korrekturen betrachtet werden. Eine Produktivitätsgröße wird erst belastbar, wenn klar ist, ob Kunden, Mitarbeitende oder nachgelagerte Bereiche tatsächlich entlastet werden.

Der neue Blick auf KI-Messung lautet deshalb: KI zeigt nicht nur, was Arbeit leistet. Sie verstärkt, was Führung belohnt. Wer falsche Maßstäbe setzt, bekommt mit KI schneller falsches Verhalten. Wer die richtigen Maßstäbe wählt, macht aus technischer Leistungsfähigkeit ein Führungsinstrument.

Quellen

← Zurück zum Blog