Votre plus grand avantage IA, ce sont vos donnees ordinaires

Votre plus grand avantage IA, ce sont vos donnees ordinaires
Un assureur sante regional possede 35 ans de dossiers de traitement des demandes de remboursement dans un systeme AS/400 que personne ne veut toucher. Chaque dossier contient une decision, un chemin de traitement, les notes d'un analyste et un resultat. Quarante millions de lignes. Personne n'a construit de tableau de bord la-dessus depuis cinq ans. Le CTO appelle ca de la dette technique.
Ce jeu de donnees vaut plus pour un agent IA que tout ce sur quoi OpenAI a deja entraine ses modeles.
Ce que les modeles fondamentaux n'ont jamais vu
GPT-4, Claude, Gemini : entraines sur l'internet public. Livres, forums, Wikipedia, depots de code, articles de presse. Une couverture enorme. Aucune profondeur sur la facon dont votre entreprise fonctionne reellement.
Un modele fondamental sait ce qu'est l'assurance. Il peut definir la subrogation, expliquer la difference entre les regimes HMO et PPO, rediger un resume de police. Mais il n'a jamais vu vos motifs de refus, votre logique d'acheminement des dossiers, vos pics saisonniers de volume, ni les 23 cas limites que votre equipe senior traite de memoire apres des annees de variantes similaires.
Cet ecart est permanent. Aucune nouvelle version de modele ne le comble. OpenAI ne peut pas s'entrainer sur votre historique transactionnel, car ils ne l'ont pas. Anthropic ne peut pas affiner ses modeles sur vos journaux de maintenance, car ces journaux vivent dans un systeme proprietaire derriere votre pare-feu. Les modeles deviennent meilleurs en raisonnement general chaque trimestre. Ils ne deviennent jamais meilleurs sur votre entreprise tant que vous ne leur donnez pas vos donnees.
Le piege de la "preparation des donnees"
92 % des entreprises disent que leurs donnees ne sont pas pretes pour l'IA. Cette statistique revient dans chaque pitch fournisseur et chaque presentation au conseil pour justifier qu'il faut tout nettoyer avant de commencer.
Le cadrage est inverse. "Pret pour l'IA", tel que la plupart des organisations le definissent, signifie structure, dedoublonne, stocke dans un entrepot moderne et accessible via des API propres. C'est la norme d'un tableau de bord BI. Cela a tres peu a voir avec ce qui rend une donnee precieuse pour l'IA.
Un modele specialise, ajuste sur des donnees desordonnees mais propres a votre domaine, surpasse souvent un modele general operant sur des donnees impeccables mais generiques. Les chercheurs l'ont montre de facon repetee : un petit modele affine sur des donnees specialisees depasse largement GPT-4 en classification zero-shot dans le meme domaine. L'effet est encore plus marque pour les taches non standard, exactement celles qui comptent en entreprise.
Les donnees n'ont pas besoin d'etre "propres" au sens equipe data warehouse. Elles doivent etre les votres.
Trois types de donnees ordinaires qui comptent
Les donnees qui ont le plus de valeur pour l'IA sont souvent celles qui paraissent les moins impressionnantes dans une presentation.
Historiques transactionnels. Chaque demande traitee, chaque commande executee, chaque pret accepte ou refuse. Ce ne sont pas des archives, ce sont des motifs de decision. Un agent entraine sur l'historique des demandes apprend quels refus sont contestes, quels recours aboutissent, quelles combinaisons de codes declenchent une revue manuelle. Ce savoir a pris des annees a vos experts. L'agent l'absorbe en heures et l'applique a une echelle impossible pour une equipe humaine.
Journaux de maintenance et d'exploitation. Un fabricant qui dispose de dix ans de journaux de maintenance possede un jeu de donnees capable d'anticiper les pannes. Un operateur telecom a utilise des decennies de journaux historiques pour entrainer des modeles predictifs de panne reseau, en combinant archives et capteurs actuels. Resultat : moins d'interruptions. Ces journaux etaient stockes dans un systeme decommissionne et consideres comme des donnees secondaires.
Communications internes et connaissance terrain. Les fils de courriels ou un gestionnaire regional explique pourquoi un segment client se comporte differemment au T4. L'article wiki qui documente le contournement d'un cas limite de facturation. Les tickets de support qui decrivent le vrai processus d'escalade, pas celui de la documentation. C'est la connaissance organisationnelle qui sort de l'entreprise quand les gens partent. C'est aussi ce qui rend un agent IA utile plutot que generique.
Le moat que personne ne voit
L'enquete 2025 de McKinsey montre que 79 % des organisations voient des investissements IA similaires chez leurs concurrents. Tout le monde a acces aux memes modeles fondamentaux. Tout le monde peut embaucher les memes integrateurs. Tout le monde peut acheter les memes plateformes d'orchestration.
Le vrai differenciateur, c'est ce sur quoi vous entrainerez ces modeles. Une startup avec des donnees propres et une stack moderne, mais peu de profondeur metier, perd face a un acteur etabli qui possede vingt ans de transactions imparfaites, car ses donnees codent des decisions qu'aucun corpus public ne contient : le comportement reel de vos clients, les processus qui echouent vraiment, et ce que font vos seniors quand la procedure standard ne suffit pas.
C'est le point que la plupart des discussions sur la "preparation des donnees" manquent. Elles traitent les donnees heritage comme un passif a migrer et nettoyer. Les organisations qui rendent ces donnees accessibles aux modeles IA, sans projet de modernisation sur plusieurs annees, accumuleront un avantage difficile a reproduire.
Ce qui se passe lors d'un decommissionnement
Les organisations decommissionnent des systemes heritage chaque annee. Mainframes retires, ERP migres, plateformes maison abandonnees. Les donnees sont generalement archivees dans un format optimise pour la conformite : assez consultable pour satisfaire un auditeur, pas assez exploitable pour entrainer un modele.
Les modeles predictifs prosperent avec un historique profond. Ils en ont besoin pour detecter des cycles de long terme. Decommissionner un systeme sans strategie data active revient a supprimer de facon permanente la memoire long terme de votre entreprise pour l'IA.
Le specialiste des demandes qui a pris sa retraite l'an dernier est parti avec trente ans de reconnaissance de motifs. L'AS/400 prevu pour decommissionnement le trimestre prochain contient cette meme connaissance institutionnelle sous forme structuree. Perdre la personne etait inevitable. Perdre la donnee est un choix.
Le chemin pratique
Vous n'avez pas besoin d'une initiative data "salle blanche" ni d'un projet de modernisation sur deux ans. Trois mouvements font la difference.
Rendez les donnees heritage interrogeables, pas migrables. Couches de virtualisation, wrappers API, acces en lecture seule aux bases archivees. L'objectif est de permettre aux modeles IA d'atteindre la donnee la ou elle vit, pas de tout deplacer d'abord dans un lakehouse. Pour la plupart des cas d'usage, une synchronisation batch suffit ; le temps reel n'est necessaire que pour une minorite.
Commencez avec un agent et un jeu de donnees. Choisissez le flux de travail ou votre equipe possede le plus de connaissance institutionnelle, puis associez-le aux donnees historiques qui codent ce savoir. Traitement des demandes, maintenance d'equipement, routage des escalades clients. Construisez un agent meilleur que l'alternative generique parce qu'il connait vos donnees. C'est ca, le cas d'affaires.
Traitez le decommissionnement comme un evenement de strategie data. Chaque retrait de systeme devrait declencher la question : qu'y a-t-il ici qui rendrait un modele IA meilleur dans notre metier ? La plupart des organisations archivent pour la conformite et s'arretent la. Extraire les donnees pour l'intelligence est une action distincte, et c'est celle qui produit un effet cumulatif.
L'actif que vous possedez deja
Chaque semaine, un nouveau fournisseur presente une plateforme qui promet une transformation IA. Toutes ces plateformes executent les memes modeles fondamentaux. La difference se joue dans la couche de donnees, et cette couche est justement ce que vous accumulez depuis des decennies en attendant une bonne raison de l'exploiter.
Les entreprises qui se plaignent le plus fort de leur manque de "preparation data" sont assises sur les actifs les plus defensables de leur organisation. Elles ont simplement mal defini ce que "pret" veut dire.
Le modele qui connait votre entreprise bat le modele qui connait tout le reste. La donnee qui le rend unique est dans vos systemes depuis le debut.
Bill Sourour est fondateur d'Arcnovus, un cabinet de conseil technologique qui aide les dirigeants a transformer les donnees qu'ils possedent deja en capacites IA qui composent. Si vous etes assis sur des decennies de donnees proprietaires et ne savez pas par ou commencer, parlons-en.

Bill Sourour
Fondateur, Arcnovus
25 ans en technologie d'entreprise. Écrit sur la stratégie IA pour les DPI.