Article de 3089 mots ⏱️ 15 min de lecture

Ne pas évaluer en permanence les résultats produits par l’IA générative revient à conduire une voiture en pleine tempête, de nuit, sans phares. Bonne chance pour atteindre votre destination !

Pourtant, une bonne nouvelle vient d’une récente ordonnance présidentielle américaine qui préconise la mise en place d’un écosystème d’évaluation pour l’intelligence artificielle. Ce cadre pourrait servir de référence pour généraliser l’usage de l’IA générative au sein des forces armées, y compris dans la Space Force.

Cependant, la mise en œuvre de ce dispositif risque de ne pas être assez rapide pour devancer des concurrents comme la Chine, qui a elle-même développé et proposé ses propres standards d’évaluation. Fort de plus de 25 ans d’expérience à l’intersection de la sécurité nationale et de l’IA, dont plusieurs années en Chine, je milite pour l’adoption d’outils open source de benchmarking et d’évaluation efficaces dans le secteur commercial et facilement transférables au Département de la Défense. Et cela peut se faire dès aujourd’hui.

Le Département de la Défense doit impérativement évaluer de façon continue le renseignement généré par l’IA. Quand j’achète une voiture, je m’attends à ce que le contrôle qualité soit intégré à la chaîne de fabrication, garantissant un produit final fiable et sécuritaire. Mais même si la voiture passe toutes ses inspections, sa sécurité dépend aussi du conducteur. La garantie repose donc sur deux niveaux : la qualité du véhicule et la compétence du conducteur.

De la même manière, les combattants doivent considérer que l’IA générative fonctionnera comme un véhicule contrôlé par un conducteur. Les acteurs commerciaux développent actuellement des processus rigoureux de contrôle de qualité et de sécurité des modèles de langage, comme attendu depuis plus d’un an par le Département de la Défense, qui a conclu un partenariat avec ScaleAI pour introduire des outils de benchmarking adaptés aux besoins militaires.

Mais les opérateurs sur le terrain ont besoin d’outils accessibles immédiatement. Ils ne peuvent attendre. En l’absence d’une équipe formée et qualifiée pour contrôler la qualité des résultats du modèle, l’IA générative risque de dériver et de planter – à l’image d’un véhicule mal entretenu – et ce, même entre les mains des « gardiens » de la Space Force.

Éviter les erreurs en opérations spatiales

Des sorties d’IA peu fiables, issues de modèles sans contrôle qualité au niveau tactique, peuvent induire des évaluations de renseignement erronées, entraînant des erreurs stratégiques et une escalade non maîtrisée en zone de conflit. Imaginez le désastre d’une guerre déclenchée sur la base d’informations fausses !

Je travaille dans le domaine de l’IA depuis plus de 20 ans. J’ai débuté à la fin des années 1990, en dirigeant les opérations internet d’une entreprise étrangère à Pékin, exploitant les premiers outils de traitement automatique du langage naturel pour fournir du renseignement aux États-Unis, à leurs alliés et à des multinationales. Après avoir fondé et vendu plusieurs entreprises en Asie, je suis rentré aux États-Unis pour diriger des startups spécialisées en IA. En 2024, j’ai accepté une commission directe au sein de la Space Force dans l’objectif d’assurer que cette branche s’appuie sur des outils innovants, utilisant des technologies commercialisées depuis longtemps par le secteur privé. Les combattants peuvent ainsi éviter de reproduire des erreurs en intégrant des pratiques éprouvées en IA, notamment en matière d’ingénierie des prompts et d’évaluation continue, bien que la bureaucratie militaire soit encore en train de débattre des autorisations d’usage opérationnel.

Pourquoi l’évaluation et le benchmarking sont-ils indispensables avec l’IA générative ? Parce qu’une IA non fiable met en péril la réussite des missions et la sécurité des personnels. C’est un impératif non négociable pour garantir la fiabilité et l’intégrité opérationnelle des systèmes. Sans test constant et comparaison rigoureuse avec des références établies, les résultats des modèles ne sont pas dignes de confiance – jusqu’à ce qu’ils soient validés. Négliger ces évaluations entraînera immanquablement une dégradation des performances, transformant des outils puissants en sources d’erreurs potentiellement catastrophiques. Seule cette rigueur garantit la supériorité décisive qui prévient des vulnérabilités stratégiques coûteuses.

Précisons que je ne suggère pas que les États-Unis dépensent des fonds publics pour évaluer globalement la sécurité et les biais des grands modèles de langage – le gouvernement s’en charge déjà. Il s’agit plutôt d’intégrer dès à présent des procédures de contrôle qualité dans le travail quotidien des opérateurs sur le terrain. Aujourd’hui, l’ingénierie des prompts constitue le meilleur levier pour atteindre cet objectif. Utilisée intelligemment par des experts concernés au niveau des petites unités, elle peut corriger efficacement les biais des modèles au sein de ce système d’évaluation.

Le Département de la Défense utilise déjà des modèles de langage génératifs. Mais que se passe-t-il lorsqu’une nouvelle version d’un modèle est déployée ? Comment un opérateur peut-il vérifier si la précision des résultats perdure ? Comment maintient-il un niveau qualitatif constant sur la durée ?

Un écosystème d’évaluation robuste répond à ces questions. Pourtant, des outils de benchmarking spécifiquement adaptés aux besoins tactiques restent rares. Beaucoup de « gardiens » ignorent l’intérêt d’un contrôle continu, ou ignorent comment appliquer les bonnes pratiques du cycle de vie de l’apprentissage automatique (MLOps).

Il existe pourtant des méthodes simples, efficaces et peu coûteuses pour évaluer et conserver la cohérence des résultats avec les grands modèles de langage. Bien sûr, les forces armées pourront un jour déployer des solutions onéreuses et complexes, mais en attendant, de petites équipes peuvent gérer ce contrôle. En raison de la variété et de la sensibilité des données militaires, cette tâche est d’ailleurs difficile à externaliser : elle fonctionne mieux proche des experts métier qui rassemblent le renseignement. C’est une compétence que le Département de la Défense doit développer en interne, tout en optimisant les ressources et en augmentant la réactivité opérationnelle.

S’inspirer des meilleures pratiques du secteur

Depuis vingt ans, j’ai encadré des équipes spécialisées en traitement automatique du langage naturel, un domaine qui remonte aux années 1950 avec les premières recherches en traduction automatique. Le traitement du langage naturel (NLP) permet aux machines de comprendre, d’interpréter et de générer du langage humain, en analysant des données linguistiques brutes. Les dernières avancées de l’IA générative reposent sur des processeurs graphiques puissants et exploitent ces acquis pour produire un contenu proche de l’humain, facilitant des tâches telles que les résumés rapides de renseignement ou la planification opérationnelle dynamique.

Pour évaluer les résultats NLP, mes équipes utilisaient des standards internationaux tels que le Bilingual Evaluation Understudy (BLEU) ou le Metric for Evaluation of Translation with Explicit Ordering (METEOR) pour contrôler la qualité des traductions de langues étrangères. Ces benchmarks fonctionnent comme une checklist, vérifiant la pertinence, la grammaire et le contexte de la traduction par rapport à un expert humain. Chaque semaine, je consultais aussi les scores ROUGE (Recall-Oriented Understudy for Gisting Evaluation) pour valider la qualité des résumés, semblable à l’évaluation d’un étudiant sur un résumé de texte long.

Dans le cadre de l’analyse du ton des actualités financières ou des données de renseignement open-source, nous combinions des métriques telles que la précision, le rappel et l’exactitude, tout en utilisant un dictionnaire spécialisé pour entraîner l’IA à qualifier correctement les sentiments positifs, négatifs ou neutres envers une entreprise, par exemple. Ces outils permettaient de fournir une analyse du risque et des menaces validée, en suivant des critères stricts éthiques et de toxicité.

Quand nos scores d’évaluation s’amélioraient, nous documentions les changements bénéfiques du modèle pour les amplifier. À l’inverse, en cas de baisse, nous menions des investigations approfondies et corrigions les problèmes.

Les « gardiens » souhaiteraient reproduire ces pratiques sans pour autant bénéficier des moyens financiers ou humains des grandes entreprises. Voici donc une méthode simple et efficace, adaptée à de petites équipes, qui remplit beaucoup des fonctions des systèmes complexes de benchmarking en vigueur dans l’industrie commerciale. Plutôt que d’intégrer plusieurs outils externes, cette approche privilégie une ingénierie de prompt rigoureuse et un suivi documentaire organisé.

Pourquoi cet effort ? Imaginons qu’un opérateur en charge de l’analyse de données orbitales open source crée une chaîne de travail basée sur plusieurs prompts calibrés. Il pourra commencer par rédiger un prompt produisant un résultat connu, garantissant ainsi la validité de son outil, à l’image d’un test de calcul élémentaire. Ensuite, en testant ce prompt sur d’autres données, il vérifiera la fiabilité continue des sorties. Une fois ce contrôle établi, il pourra étendre le champ d’application à de plus grandes quantités d’informations.

Le plan de base

Pour préserver l’intégrité opérationnelle et générer des analyses pertinentes à partir des flux de données alimentés par les modèles de langage, une petite équipe doit désigner un « sentinelle assurance qualité ». Ce titre peut varier, mais cette personne a pour mission centrale de garantir la qualité des prompts, la fiabilité du modèle et l’exactitude des résultats au niveau tactique. Elle supervise l’ensemble du processus, surveille la dérive, la dégradation ou les hallucinations du modèle, évitant ainsi que ces phénomènes n’affectent des produits d’intelligence indispensables.

Le sentinelle assurance qualité ne doit pas forcément maîtriser les algorithmes, mais doit connaître parfaitement son domaine métier. Par exemple, s’il travaille dans la spectrométrie, il doit distinguer les données ionosphériques de celles en gravimétrie. S’il œuvre dans la navigation, il est crucial qu’il repère facilement les ensembles d’éléments à deux lignes (two-line element sets). Cette expertise terrain explique pourquoi il est risqué de confier cette fonction cruciale à des prestataires externes. Il ne faut pas se fier aux produits commerciaux promettant d’apporter ce savoir-faire aux combattants !

Sa première mission consiste à établir un cadre opérationnel de référence pour les cas d’usage de l’IA générative : résumé de documents, extraction de signaux, fusion de renseignement ou analyse de sentiment. Chaque mission doit être précisément délimitée avec des critères de réussite – qu’ils soient quantifiables (exactitude, latence, taux d’hallucination) ou qualitatifs (pertinence, clarté, tonalité).

Le sentinelle doit tenir un tableau de bord centralisé d’évaluation où sont consignés tous les échanges avec le modèle, les données d’entrée, les sorties et les scores attribués. Ce document, accessible à toute l’équipe et versionné, peut être un simple tableur conçu sur mesure. Pas besoin d’outils coûteux, l’essentiel est de faire plus avec moins.

Ensuite, il crée un jeu de tests statiques regroupant de 20 à 50 échantillons couvrant les scénarios clés de la mission. Ce jeu est exécuté régulièrement ou lors de modifications des modèles ou prompts. Par des tests comparatifs (A/B testing), comme entre GPT-4o et Claude 3, il note les performances selon des indicateurs prédéfinis. Toute variation de comportement ou dégradation est documentée et analysée. La question clé qu’il se pose en continu : « Qu’est-ce qui a changé ? La qualité s’est-elle améliorée ou dégradée ? »

Pour éviter la dérive des prompts et garantir un contrôle des configurations, il administre un dépôt centralisé de prompts sous contrôle de versions (par exemple avec Git). Toute modification, tout changement de paramètre ou anomalie doit être consigné. En cas de trouble, il déclenche un retour en arrière. Dans l’industrie, ce dépôt constitue un capital intellectuel précieux et confidentiel, clé pour exploiter des données disparates.

Les écarts et anomalies sont suivis grâce à un code couleur simple (rouge/orange/vert) par cas d’usage. Un rendez-vous hebdomadaire de contrôle qualité réunit l’équipe et les décideurs, assurant un alignement sur la situation opérationnelle et les ajustements nécessaires.

Le sentinelle conserve aussi un référentiel d’enseignements tirés, répertoriant les particularités des modèles, les stratégies efficaces de prompt et les échecs passés. Cet archive, lisible par tous, est un patrimoine institutionnel garantissant la pérennité des savoir-faire, même en cas de turnover ou de cadence intense. Des outils collaboratifs comme SharePoint ou Confluence peuvent être utilisés selon les ressources disponibles.

Enfin, il est important que le sentinelle teste les limites des modèles, notamment commerciaux. Comme l’ont souligné Benjamin Jensen, Yasir Atalan et Ian Reynolds, les garde-fous commerciaux peuvent être inadaptés voire dangereux dans certains contextes militaires. Le sentinelle doit ainsi « pousser le tachymètre à fond » pour maîtriser les frontières du modèle. Par exemple, lors d’opérations de guerre de l’information ou de cyberdéfense, il peut être nécessaire de générer des données sensibles ou analyser du code malveillant pour détecter des motifs.

Le reste de l’équipe se concentre sur l’ingestion, l’annotation et l’analyse exploratoire des données, tandis que le sentinelle fait office de dernier rempart avant la diffusion du renseignement. Toutes les sorties destinées aux briefings ou boucles décisionnelles doivent être validées. On peut assimiler son travail à une série de vérifications avant départ en mission.

En résumé, dans une petite cellule IA générative, le sentinelle assurance qualité incarne la référence pour la performance du modèle et le contrôle de la discipline des prompts. Cette organisation décentralisée mais rigoureuse offre la réactivité nécessaire tout en préservant la confiance dans les résultats produits. L’équipe avance vite, mais pas à l’aveugle.

Ce rôle critique garantit que l’on conduit une voiture bien entretenue, qu’on reste sur la route et qu’on évite les obstacles. À mesure que les financements et les exigences augmentent dans la Space Force, l’intégration d’outils tiers pour le suivi qualitatif pourra compléter ce travail. Mais en attendant, un sentinelle peut remplir efficacement cette fonction, à moindre coût.

L’avenir

À l’été 2019, mon entreprise surveillait les discussions sur les réseaux sociaux chinois. Nous avons commencé à collecter des conversations autour d’un « nouveau SRAS » – la maladie respiratoire qui allait déclencher la première pandémie du 21e siècle.

Avec l’arrivée de l’automne, et face à l’ampleur du phénomène, de nouveaux argots et termes codés sont apparus pour contourner la censure chinoise. Fort heureusement, notre sentinelle qualité a pu identifier et corriger les erreurs de compréhension des modèles, nous permettant un pivot rapide face à l’évolution des données. Cette capacité nous a permis de fournir à nos clients un renseignement plus précis, essentiel pour garder une longueur d’avance au début de la crise COVID-19. Ce type de vigilance sera encore plus crucial dans des environnements opérationnels riches et dynamiques comme l’espace.

Il faut noter que l’IA générative est déjà très utilisée dans l’environnement des systèmes d’entreprise militaire. Sur le terrain, d’autres types d’IA (vision par ordinateur, fusion de capteurs, robotique, drones) dominent. Mais l’IA générative devient rapidement l’interface utilisateur principale pour ces technologies, et les enseignements tirés de l’ingénierie des prompts et du travail des sentinelles qualité vont nourrir cet écosystème.

Un benchmarking solide affiné par ces sentinelles accélère le rythme opérationnel en fournissant aux opérateurs des informations fiables, leur permettant de prendre des décisions rapides et décisives. C’est un élément fondamental de la boîte à outils de l’IA commerciale, et cela doit également être intégré dans les systèmes militaires. À terme, ce rôle de sentinelle disparaîtra, remplacé par une IA capable d’auto-surveillance et d’auto-évaluation, avec peu d’intervention humaine. L’IA deviendra alors un élément clé de la guerre algorithmique du futur.

Mais en attendant ce stade, la présence humaine est indispensable dans les petites équipes chargées de systèmes critiques utilisant des résultats produits par l’IA générative.

Daniel Levinson est diplômé de l’Air War College de l’US Air Force et poursuit actuellement plusieurs certifications à la National Defense University. Titulaire d’un Master en cybersécurité de Georgia Tech et d’un Master en informatique de l’Université de Hong Kong, il est également diplômé en anglais de William and Mary. Entrepreneur technologique avec plus de 25 ans d’expérience et plusieurs succès dans la création et la cession d’entreprises, il a été commissionné en 2024 lieutenant-colonel actif dans la Space Force. Avant son engagement, il a liquidé ses participations commerciales liées à la défense. Les propos développés ici sont strictement personnels et n’engagent pas officiellement la Space Force ou le Département de la Défense américain. Toute référence ou mention n’implique aucune approbation.

Image : Midjourney