
Vous ne souhaitez pas envoyer vos documents sensibles aux services d’intelligences artificielles génératives (IA) en ligne, comme ChatGPT ou Perplexity. Pour préserver la confidentialité, la meilleure solution reste d’exécuter l’intelligence artificielle directement sur votre ordinateur, sans transmettre de données au nuage. Ollama est un programme disponible sur Linux, Windows et macOS qui simplifie cette démarche, même pour les débutants.
L’installation d’Ollama est rapide et intuitive. Le logiciel offre une interface graphique limitée pour les débutants, mais peut aussi fonctionner en ligne de commande, par exemple en utilisant Terminal sur macOS pour installer des modèles spécifiques. Cette interface permet de télécharger et d’exploiter plusieurs modèles d’IA, sans connexion permanente au réseau. La documentation officielle. Sur Windows, vérifiez votre configuration avant installation.
Une solution pratique et accessible
Contrairement à certains outils complexes, Ollama ne demande pas de compétences poussées en programmation. Ceux qui le préfèrent peuvent utiliser un terminal pour interagir avec l’IA, ce qui offre plus de flexibilité; ils peuvent toutefois le faire. Cette solution hybride répond aux besoins variés des utilisateurs, du simple curieux au professionnel du numérique.
Cependant, utiliser une IA en local suppose d’avoir un ordinateur suffisamment puissant. Les modèles demandent de la mémoire vive et un processeur performant ou une carte graphique moderne pour traiter rapidement les demandes. Pour ceux qui veulent de la puissance, des machines comme le Lenovo Yoga Pro 9i peuvent être une solution, mais…
Idéal sur les puces Apple Silicon
Ce Lenovo Yoga Pro 9i, testé ici récemment, combine puissance et polyvalence sur le papier. Son processeur Intel dernier cri et ses options graphiques devraient lui permettre de faire des étincelles. Pour résumer un PDF de 200 pages environ en 500 mots il nous a fallu près de deux minutes sur cette machine, alors que sur un MacBook Pro M4 animé par la puce M4 Pro, moins de 20 secondes ont été nécessaires…
A l’usage, l’internaute constatera aussi que tous les modèles proposés sur Ollama ne se valent pas. Je viens d’installer Mistral en utilisant Terminal et les résultats sont assez bons. N’hésitez pas à demander à différentes IA connectées à internet, comme Perplexity, quel est le meilleur modèle pour votre usage (coda, texte, résumés, etc.).
Bonne chance!
Xavier Studer
En savoir plus sur Le blog high-tech & telecom de Xavier Studer
Subscribe to get the latest posts sent to your email.
Très pratique et efficace
Voici la version corrigée de votre commentaire :
Les meilleurs, à mon goût :
1. Granite4:Small-H (Moe)
2. GPT-OSS:20B (Moe + Réflexion)
3. Gemma3:27B
4. Magistral (Réflexion)
5. Mistral-Small 3:2
Actuellement, je suis dans ma période Granite, avant c’était GPT-OSS:20B.
J’ai un coup de cœur pour Mistral-Small, mais avec Gemma3, ils sont lents sur mon serveur d’inférence (~10 tokens/s contre 20 tokens/s pour les Moe) parce que j’ai deux cartes Nvidia Quadro P5000 de 16 Go de VRAM et comme les Moe font travailler deux experts, Ollama utilise les deux cartes.
Mon serveur Ollama est un Dell avec un Xeon et 32 Go de RAM, acheté avec une Quadro P5000 pour 700.- l’année dernière sur Ricardo, plus l’achat d’une seconde P5000 pour 120.- sur eBay l’année passée. Le PC a une alimentation de 950 W, donc il tient bien la charge.
Quant au logiciel frontend, j’utilise Open-WebUI, certainement un des meilleurs. Il gère le serveur Ollama, permet d’utiliser des API compatibles OpenAI pour l’inférence externe, autorise l’ajout de tools OpenAPI et MCP, et dispose de fonctionnalités pour étendre le serveur.
Il y a de quoi monter son petit ChatGPT configuré au petits oignons.
Ce commentaire à été corrigé par granite4:small-h