IA: Google unifie textes, images et sons avec Gemini Embedding 2

Publication publiée :14/03/2026
Dernière modification de la publication :14/03/2026
Commentaires de la publication :1 commentaire

Indexation: Google fait fort avec son modèle multimodal.

Google développe encore son offre d’intelligence artificielle (IA) avec Gemini Embedding 2, présenté comme son premier modèle d’indexation nativement multimodal. Cet outil convertit textes, images, vidéos, sons et fichiers PDF dans un même espace sémantique, afin de retrouver ou rapprocher des contenus différents selon leur sens plutôt que selon de simples mots-clés.

Derrière cette annonce un peu austère se cache en réalité une fonction centrale pour les futurs moteurs de réponse et les grandes bases de données documentaires. Ce type de modèle ne rédige rien par lui-même, mais il permet à une machine de comparer des contenus très différents et de retrouver, par exemple, une image à partir d’une requête textuelle ou un passage vidéo à partir d’un document écrit, selon ce texte.

Une pièce maîtresse peu visible

Google promet ici une approche plus simple que les chaînes techniques habituelles, qui exigent souvent plusieurs modèles distincts pour traiter les textes, les images ou le son. Selon ses dires, Gemini Embedding 2 accepte jusqu’à 8192 jetons pour le texte, jusqu’à six images, de la vidéo (120 secondes) et du son (80 secondes), ainsi que des PDF de six pages, ce qui montre bien l’ambition de couvrir les usages les plus courants dans une seule brique logicielle.

Le géant américain met aussi en avant une sortie ajustable des vecteurs produits, avec 3072 dimensions par défaut, mais des formats plus compacts si l’on veut réduire les besoins de stockage ou accélérer les traitements. Rien que ça! C’est une promesse importante pour les entreprises, car ce type d’outil devient vite coûteux lorsqu’il faut indexer des masses de contenus hétérogènes dans des bases de données spécialisées.

Google muscle son écosystème

Cette nouveauté est proposée en préversion publique via Gemini API (Google AI Studio/SDK) et dans Vertex AI, la plateforme maison destinée au développement et aux offres pour les entreprises. Google cherche ainsi à attirer les concepteurs de services vers un écosystème intégré, où la recherche sémantique, les assistants et les outils d’analyse reposent de plus en plus sur les mêmes briques techniques.

Reste toutefois une limite importante, que Google mentionne d’ailleurs implicitement dans sa documentation: les vecteurs du nouveau modèle ne sont pas compatibles avec ceux de la génération précédente, ce qui oblige à réindexer les contenus existants lors d’une migration. Dit autrement, la nouveauté peut être séduisante sur le plan technique, mais elle peut aussi imposer un chantier discret, coûteux et potentiellement contraignant pour les acteurs déjà engagés dans l’écosystème Gemini.

Dernier «détail», cette évolution technologique fonctionne dans plus de 100 langues!

Xavier Studer