Mistral AI, la startup française spécialisée en intelligence artificielle, a franchi une étape majeure avec le lancement de Pixtral 12B, son premier modèle capable de traiter simultanément du texte et des images. Pixtral 12B peut analyser des images haute résolution (jusqu’à 1024×1024 pixels) et reconnaître 131 072 jetons, offrant ainsi une grande flexibilité pour le traitement des données visuelles et textuelles.
Il faut dire que le modèle se distingue par ses capacités avancées, telles que la génération de descriptions d’images, le sous-titrage, la classification et le comptage d’objets dans une scène. Grâce à la technologie 2D RoPE (Rotary Position Embeddings) intégrée à son encodeur de vision, Pixtral 12B améliore la compréhension des relations spatiales dans les images, ce qui le rend particulièrement performant pour l’analyse d’images complexes.
Pixtral 12B : une IA multimodale accessible et performante
Mistral AI, dans sa volonté de démocratiser l’accès à l’IA a rendu Pixtral 12B disponible en open source sous licence Apache 2.0. Cela permet aux développeurs de télécharger, affiner et utiliser le modèle pour divers cas d’usage, tels que la transcription image-texte (OCR), l’explication de contenus scientifiques ou l’extraction et le traitement des données.
Bien que Pixtral 12B arrive après les modèles multimodaux d’OpenAI, Google et Anthropic, il représente une avancée significative pour Mistral AI et l’écosystème français de l’IA. Le modèle intégrera prochainement des services comme « Le Chat » et « La Plateforme », renforçant la compétitivité de la startup face aux géants du secteur.
En fin de compte avec ce lancement, Mistral AI, fondée par d’anciens ingénieurs de grandes entreprises technologiques, affirme son ambition de devenir un acteur clé de l’intelligence artificielle en Europe, tout en respectant les enjeux éthiques et environnementaux liés à l’IA.