L’IA Act, entré en vigueur le 1er août dernier, impose des exigences aux modèles de langage comme GPT, Llama, Claude, et Mistral. Pour évaluer leur conformité, la société Latticeflow, en collaboration avec l’ETH Zurich et l’INSAIT de Sofia, a créé le framework Compl-AI, qui évalue ces modèles sur plus de vingt spécifications techniques.
Compl-AI identifie les lacunes des modèles et des critères existants, notamment en termes de robustesse, sécurité, diversité et équité. Cet outil traduit les obligations du règlement en exigences techniques, rendant la loi plus concrète.
Un cadre de conformité face aux principes éthiques
À partir du 2 août 2025, l’IA Act s’appliquera aux modèles d’IA à usage général, et à partir de 2027 pour les systèmes à haut risque. Les modèles sont classés par niveau de risque : inacceptables, à risque élevé, limité et minimal. Si un modèle est jugé inacceptable, il sera interdit, et les éditeurs devront payer des amendes en cas de non-respect des règles.
Le règlement repose sur six principes éthiques : surveillance humaine, robustesse, confidentialité, transparence, équité et bien-être social. Compl-AI évalue les modèles d’IA en fonction de ces principes en effectuant une série de tests rigoureux. Le framework mesure la capacité des modèles à répondre correctement tout en évitant les biais, en utilisant des scénarios variés qui simulent des situations réelles. Les chercheurs analysent chaque modèle pour identifier d’éventuelles failles, notamment en ce qui concerne la sécurité des données et les risques de manipulation Compl-AI classe ensuite les modèles selon leur conformité aux principes de l’IA Act, en s’appuyant sur des critères objectifs. Les résultats permettent aux développeurs de cibler les domaines nécessitant des améliorations. Compl-AI offre également une vue claire sur la conformité des modèles pour les régulateurs et les éditeurs, facilitant une meilleure application des normes de sécurité et de transparence.
Les résultats des évaluations : GPT-4 Turbo et Claude 3 Opus en tête
Compl-AI a évalué onze modèles de premier plan provenant de sept éditeurs. Les modèles étaient notés de 0 (aucune conformité) à 1 (conformité totale). Aucun modèle n’a obtenu la note parfaite, mais GPT-4 Turbo et Claude 3 Opus se sont distingués avec des scores de 0,89, tandis que Gemma 2 9B avait le plus faible score avec 0,72.
Parmi les autres, Llama 2 7B a obtenu un score de 0,75, Mistral 7B Instruct 0,76, et GPT-3.5 Turbo 0,81. Les chercheurs ont noté que certains modèles peinent à respecter les exigences de diversité, d’équité et de non-discrimination. Les modèles de plus petite taille, tels que Llama 2 7B et Mistral 7B Instruct, présentent des faiblesses en matière de robustesse et de sécurité, ce qui les rend plus vulnérables aux attaques potentielles et moins capables de satisfaire pleinement aux exigences réglementaires.
Des efforts nécessaires sur la traçabilité et la résilience
Compl-AI a montré que tous les modèles s’en sortaient bien sur la protection de la vie privée et l’absence de violation du droit d’auteur. En revanche, les chercheurs ont relevé des problèmes concernant la cohérence des recommandations, la résilience aux cyberattaques et l’équité. Mistral 7B Instruct a obtenu le pire score en équité (0,27), tandis que Claude 3 Opus se plaçait en tête (0,80). Aucun des modèles évalués n’a réussi à atteindre un score positif en matière de traçabilité, révélant un manque important dans ce domaine.
Vers un futur cadre d’évaluation élargi
Martin Vechev, professeur à l‘ETH Zurich, encourage les chercheurs, développeurs et régulateurs à contribuer à l’enrichissement de Compl-AI en ajoutant de nouveaux critères d’évaluation. Cela permettrait de mieux cerner les enjeux et de s’assurer que le framework reste pertinent face aux évolutions des réglementations. Les chercheurs pourraient aussi élargir la méthodologie pour anticiper les exigences des futurs actes réglementaires, ce qui rendrait Compl-AI encore plus pertinent pour les organisations souhaitant se conformer aux nouvelles normes.
La Commission européenne, représentée par Thomas Regnier, a qualifié cette initiative de premier pas significatif vers l’intégration des obligations légales dans un cadre technique concret. Cette démarche vise à aider les fournisseurs à mieux se conformer aux exigences réglementaires tout en maintenant un équilibre entre performance des modèles et respect des principes éthiques.