Les modèles IA progressent vite. Trop vite pour leurs propres éditeurs ?
Analyse Mistral AISynthèse exécutive
Les grandes IA ont mis en place des systèmes déclaratifs pour éviter que des acteurs malveillants utilisent leurs outils à des fins offensives. L’intention est louable, mais l’efficacité est largement discutable : ces programmes protègent contre l’usage distrait ou accidentel, pas contre l’usage déterminé.
Ils apparaissent trop facilement détournables en l’état.

Cyber safeguards en temps réel : pourquoi Anthropic et OpenAI ont agi
Opus 4.8 et Codex représentent un saut de capacité réel sur les usages cyber : analyse de vulnérabilités, développement d’outils offensifs, red teaming assisté. Anthropic et OpenAI ont visiblement jugé que laisser ces fonctions en accès libre posait un problème sérieux.
Anthropic et OpenAI ont donc déployé des « cyber safeguards » en temps réel, bloquant par défaut tout ce qui relève du « dual use ». Les autres grands éditeurs (Google Vertex, Amazon Bedrock, Azure OpenAI) n’ont pas encore emboîté le pas. Manque de maturité des modèles, ou simplement moins de pression publique sur le sujet ?
Différence de traitement entre modèles propriétaires et open source
Pour les modèles open-weight comme Mistral, le code est accessible directement, ce qui rend un programme de vérification d’accès largement caduc : on ne peut pas contrôler l’usage d’un modèle qu’on a publié en open source.
Pour les modèles propriétaires qui n’ont pas commencé à se poser la question, on peut se demander pourquoi, intellectuellement mais aussi par rapport à cette notion de peur et ce qu’elle dit de la puissance des modèles.
Le Cyber Verification Program : un contrôle déclaratif, pas une garantie
Pour les professionnels légitimes, Anthropic et OpenAI ont mis en place des programmes de vérification. Anthropic l’appelle le Cyber Verification Program, OpenAI parle d’accès sécurisé pour les activités cyber. Le principe est identique des deux côtés : gratuit, sans lourdeur administrative, quelques questions sur votre activité, des liens vers votre profil ou vos publications. mais pas de preuve d’identité formelle. La réponse arrive en 48h (dans mon cas).
Formulaire Anthropic : https://claude.com/form/cyber-use-case
Formulaire OpenAI : https://chatgpt.com/cyber
Ces programmes sont valables éditeur par éditeur. Un CVP Anthropic ne vous donne rien chez OpenAI, et vice versa. Si vous utilisez plusieurs plateformes, il faudra faire la démarche autant de fois. Sans garantie que les équivalents arrivent un jour sur les environnements cloud des revendeurs.
Dual use IA : ce que le CVP protège vraiment
Pour moi, il faut nuancer le tableau : le dispositif repose sur une hypothèse fragile :
- Du côté des professionnels légitimes, beaucoup de vrais offensifs travaillent discrètement, sans publications publiques ni profil LinkedIn fourni. Le filtre risque de bloquer des gens qui ont toute légitimité à accéder à ces outils.
- Du côté des acteurs malveillants, le problème est inverse : un attaquant un peu organisé sait exactement comment construire une façade white hat crédible. Et il a accès à d’autres infrastructures de toute façon.
Vous cherchez des infos de qualité ? Un éclairage ?
N’hésitez pas à nous contacter. Nous pouvons étudier pour vous un point particulier et vous fournir en un temps court nos éclairages, argumentés et sourcés. Pas de l’IA de base, mais une vraie analyse.
Et si vous voulez parler de la cybersécurité de votre entreprise, prenez rendez-vous avec nos experts pour une consultation de sécurité sans engagement.
Plus d’infos ? Des questions ? Contactez-nous !