Vous mesurez mal votre IA

Le chatbot a atteint 91 % de précision sur la classification des billets de soutien. Le temps de réponse moyen est passé de quatre heures à douze minutes dans le groupe test. Les cinq agents qui se sont portés volontaires l'ont noté 4,3 sur 5.

Six mois après le début de la phase suivante, le taux de désabonnement des clients n'a pas bougé. Mêmes chiffres de renouvellement. Même volume d'escalades. Le chatbot fonctionne. Le tableau de bord de rétention ne l'a pas remarqué.

Le piège des métriques de vanité

La plupart des pilotes IA rapportent des métriques qui décrivent le modèle : précision, latence, amélioration de la vitesse par rapport à une base manuelle. Ce qu'ils devraient rapporter, c'est comment le pilote a fait bouger de façon significative un chiffre d'affaires.

Le sondage mondial 2025 de McKinsey a révélé que 88 % des organisations utilisent l'IA dans au moins une fonction. Seulement 39 % rapportent un impact sur le BAII. Pour la majorité de ces 39 %, l'impact est inférieur à 5 % du BAII total.

L'écart persiste parce que les équipes IA rapportent ce qu'elles peuvent contrôler. La précision du modèle est sous le contrôle de l'équipe. Les résultats commerciaux dépendent de l'adoption, du changement de flux de travail et de l'intégration avec les systèmes existants, dont aucun n'appartient à l'équipe IA. Alors la revue trimestrielle reçoit une diapositive sur la précision, et les finances reçoivent une question sur le RSI à laquelle personne ne peut répondre.

Le vide de perception

Quand la mesure n'existe pas, la perception comble le vide.

Une étude du BCG publiée dans Harvard Business Review a révélé que 76 % des dirigeants croient que leurs employés sont enthousiastes à propos de l'adoption de l'IA. Seulement 31 % des contributeurs individuels ont exprimé de l'enthousiasme. Le sondage 2025 de Larridin auprès de 350 hauts dirigeants des finances et des TI a révélé que 55 % ne sont pas certains que leurs investissements IA sont rentables.

Sans chiffres solides, la revue trimestrielle devient un exercice de narration. Chaque équipe rapporte ce qui semble vrai. La démo avait l'air bien. Les utilisateurs semblaient contents. Les chiffres devraient s'améliorer une fois que l'adoption augmente. C'est ainsi qu'un pilote qui ne fonctionne pas obtient un trimestre de budget supplémentaire : personne n'a mesuré son absence d'impact, donc personne ne peut argumenter contre sa présence.

Le pendule

L'absence de mesure crée deux modes d'échec, et la plupart des entreprises passent par les deux.

D'abord : tout est financé. Sans données pour distinguer un pilote qui fonctionne d'un mort, chaque équipe obtient "juste un trimestre de plus." Les pilotes s'accumulent. Les budgets grandissent.

Puis le contrecoup. S&P Global a trouvé que 42 % des entreprises ont abandonné la plupart de leurs initiatives IA en 2025, en hausse par rapport à 17 % l'année précédente. L'organisation moyenne a abandonné 46 % de ses preuves de concept IA avant la production. Le directeur financier a perdu patience avant que les données n'arrivent.

Tout financer est de la foi. Tout éliminer est de la frustration. Les deux sont ce qui arrive quand les décisions sont prises sans données.

Ce que les 6 % mesurent

McKinsey définit les organisations IA performantes comme celles qui attribuent 5 % ou plus du BAII à l'IA et rapportent une valeur significative. Environ 6 % des répondants se qualifient.

Le prédicteur unique le plus fort de l'impact sur le BAII, parmi 25 attributs testés : la refonte des flux de travail. 55 % des performants ont fondamentalement revu les processus lors du déploiement de l'IA, près de trois fois le taux de tous les autres.

Cela vous dit vers où la métrique devrait pointer. Les performants mesurent le processus que l'IA est censée améliorer. Si un outil de résumé de documents est censé accélérer le traitement des réclamations, la métrique est le nombre moyen de jours entre le dépôt de la réclamation et sa résolution. Si un modèle automatisé de notation des risques est censé améliorer la précision de la souscription, la métrique est le ratio de sinistres sur le prochain cycle de renouvellement. Si un agent de routage client est censé réduire les coûts du centre d'appels, la métrique est le coût par résolution.

Les 6 % suivent les résultats commerciaux. Tout le reste découle de cela.

La base de référence que personne n'établit

La raison la plus simple pour laquelle les entreprises ne peuvent pas prouver la valeur de l'IA : elles n'ont jamais enregistré où le chiffre commençait.

Larridin a trouvé que 81 % des entreprises citent la mesure du RSI comme leur principal défi de gouvernance. L'indice de préparation à l'IA de Cisco a trouvé que seulement 32 % ont un processus défini pour mesurer le RSI de l'IA. La plupart des équipes lancent un pilote, le font tourner quelques mois, puis essaient d'argumenter rétroactivement que les choses se sont améliorées. Sans base de référence, "amélioré" n'est qu'un sentiment.

Une base de référence prend une semaine. Tirez l'état actuel de la métrique commerciale que le pilote est censé faire bouger. Consignez-le. Convenez d'un seuil : si ce chiffre ne s'améliore pas de X % en Y mois, le pilote meurt. Cela transforme un empilement d'expériences en un portefeuille avec des critères d'entrée et de sortie clairs. Cela enlève aussi la politique de la décision d'élimination, parce que le seuil a été fixé avant que quiconque s'attache.

Dans une organisation, l'établissement de bases de référence avant le lancement a réduit la revue moyenne de pilote d'un débat de 45 minutes à une vérification de 10 minutes. Le seuil a fait les arguments. Trois pilotes ont été éliminés au premier cycle, et les ingénieurs ont été réaffectés aux deux qui fonctionnaient. Le directeur technologique a dit que c'était la première réunion de revue IA qui s'est terminée par une décision plutôt qu'une demande de plus de temps.

Une discipline de mesure

Quatre étapes. Aucune ne nécessite une nouvelle plateforme ou une équipe de science des données.

Avant le lancement du pilote, nommez la métrique commerciale qu'il est censé faire bouger : temps de résolution, coût par transaction, taux de rétention, revenu par client.

Établissez la base de référence. Mesurez l'état actuel avant que l'IA ne touche quoi que ce soit.

Fixez un seuil et un calendrier. "Si le coût par résolution ne baisse pas de 10 % en six mois, on arrête."

À l'échéance, vérifiez. Si le chiffre a bougé, le pilote a mérité des ressources de production et une vraie équipe d'ingénierie. Si ce n'est pas le cas, le pilote vous a donné de l'information, et l'équipe est libre d'essayer la prochaine chose.

Les données de McKinsey font l'argument : près des deux tiers des organisations restent au stade de l'expérimentation. C'est la mesure qui n'a pas suivi.

Une baisse de deux points du taux de désabonnement mérite un calendrier de production. 91 % de précision de classification mérite une autre démo.