Compl-AI évalue la conformité des LLM selon l’IA Act

Date:

L’IA Act, entré en vigueur le 1er août dernier, impose des exigences aux modèles de langage comme GPT, Llama, Claude, et Mistral. Pour évaluer leur conformité, la société Latticeflow, en collaboration avec l’ETH Zurich et l’INSAIT de Sofia, a créé le framework Compl-AI, qui évalue ces modèles sur plus de vingt spécifications techniques.

Compl-AI identifie les lacunes des modèles et des critères existants, notamment en termes de robustesse, sécurité, diversité et équité. Cet outil traduit les obligations du règlement en exigences techniques, rendant la loi plus concrète.

Un cadre de conformité face aux principes éthiques

À partir du 2 août 2025, l’IA Act s’appliquera aux modèles d’IA à usage général, et à partir de 2027 pour les systèmes à haut risque. Les modèles sont classés par niveau de risque : inacceptables, à risque élevé, limité et minimal. Si un modèle est jugé inacceptable, il sera interdit, et les éditeurs devront payer des amendes en cas de non-respect des règles.

Le règlement repose sur six principes éthiques : surveillance humaine, robustesse, confidentialité, transparence, équité et bien-être social. Compl-AI évalue les modèles d’IA en fonction de ces principes en effectuant une série de tests rigoureux. Le framework mesure la capacité des modèles à répondre correctement tout en évitant les biais, en utilisant des scénarios variés qui simulent des situations réelles. Les chercheurs analysent chaque modèle pour identifier d’éventuelles failles, notamment en ce qui concerne la sécurité des données et les risques de manipulation Compl-AI classe ensuite les modèles selon leur conformité aux principes de l’IA Act, en s’appuyant sur des critères objectifs. Les résultats permettent aux développeurs de cibler les domaines nécessitant des améliorations. Compl-AI offre également une vue claire sur la conformité des modèles pour les régulateurs et les éditeurs, facilitant une meilleure application des normes de sécurité et de transparence.

Les résultats des évaluations : GPT-4 Turbo et Claude 3 Opus en tête

Compl-AI a évalué onze modèles de premier plan provenant de sept éditeurs. Les modèles étaient notés de 0 (aucune conformité) à 1 (conformité totale). Aucun modèle n’a obtenu la note parfaite, mais GPT-4 Turbo et Claude 3 Opus se sont distingués avec des scores de 0,89, tandis que Gemma 2 9B avait le plus faible score avec 0,72.

Parmi les autres, Llama 2 7B a obtenu un score de 0,75, Mistral 7B Instruct 0,76, et GPT-3.5 Turbo 0,81. Les chercheurs ont noté que certains modèles peinent à respecter les exigences de diversité, d’équité et de non-discrimination. Les modèles de plus petite taille, tels que Llama 2 7B et Mistral 7B Instruct, présentent des faiblesses en matière de robustesse et de sécurité, ce qui les rend plus vulnérables aux attaques potentielles et moins capables de satisfaire pleinement aux exigences réglementaires.

Des efforts nécessaires sur la traçabilité et la résilience

Compl-AI a montré que tous les modèles s’en sortaient bien sur la protection de la vie privée et l’absence de violation du droit d’auteur. En revanche, les chercheurs ont relevé des problèmes concernant la cohérence des recommandations, la résilience aux cyberattaques et l’équité. Mistral 7B Instruct a obtenu le pire score en équité (0,27), tandis que Claude 3 Opus se plaçait en tête (0,80). Aucun des modèles évalués n’a réussi à atteindre un score positif en matière de traçabilité, révélant un manque important dans ce domaine.

Vers un futur cadre d’évaluation élargi

Martin Vechev, professeur à l‘ETH Zurich, encourage les chercheurs, développeurs et régulateurs à contribuer à l’enrichissement de Compl-AI en ajoutant de nouveaux critères d’évaluation. Cela permettrait de mieux cerner les enjeux et de s’assurer que le framework reste pertinent face aux évolutions des réglementations. Les chercheurs pourraient aussi élargir la méthodologie pour anticiper les exigences des futurs actes réglementaires, ce qui rendrait Compl-AI encore plus pertinent pour les organisations souhaitant se conformer aux nouvelles normes.

La Commission européenne, représentée par Thomas Regnier, a qualifié cette initiative de premier pas significatif vers l’intégration des obligations légales dans un cadre technique concret. Cette démarche vise à aider les fournisseurs à mieux se conformer aux exigences réglementaires tout en maintenant un équilibre entre performance des modèles et respect des principes éthiques.

Chloé (EFIMOVE)
Chloé (EFIMOVE)
Efimove.ai est une entreprise spécialisée en intelligence artificielle à destination des entreprises afin de transformer leurs processus métiers. Efimove est également l'une des entreprises précurseuses des solutions RAG IA avec de belles références à son actif.

Suivez-nous :

Newsletter

spot_imgspot_img

Populaires

A lire également
Intelligence Artificielle

L’IA au service des agents immobiliers d’ERA

L'#IA au service des agents d'ERA optimise les #ventes immobilières et soutient l'efficacité opérationnelle.

DeepSeek R1-Lite-Preview : une nouvelle IA de raisonnement

Le modèle #DeepSeek R1-Lite-Preview marque une avancée significative en #IA, en repoussant les limites du secteur #IT avec ses capacités de raisonnement.

L’IA, un atout pour les conseillers financiers

L'#IA transforme le secteur #financier en permettant une personnalisation accrue des services clients par les conseillers.

L’IA dans la construction : enjeux et perspectives

L'étude révèle que l'#IA joue un rôle clé pour rendre les processus #opérationnels plus efficaces dans le secteur de la construction.