Commentaires sur : Swisscom lance une plate-forme pour le développement d’IA

Par : Sen

Sen — Sun, 09 Jun 2024 17:23:04 +0000

En réponse à Cédric. J'adore

Par : Sen

Sen — Sat, 08 Jun 2024 14:09:14 +0000

En réponse à Cricri.

L’algo de chatGPT est basé sur un réseau de neurones…. tu voudrais savoir quoi de plus ? Le nombre de paramètres utilisés ? le degré d’entropie ? le fonctionnement de la rétro-propagation du gradient ? Les sources de données utilisées pour générer les réponses ?
La théorie des réseaux de neurones est disponible gratuitement sur internet si tu souhaites comprendre comment ca fonctionne. Après il faut bien comprendre que business is business, et que un algo IA (bugé jusqu’au trognon) peut tomber dans les trades secrets de la stratégie IP de l’entreprise. Microsoft a investi 10 milliards sur le développement de chatGPT, tu te doutes bien qu’ils ne vont pas en faire un livre blanc qui expliquent précisément comment fonctionne leur algo ?
D’ailleurs, à ce jour, tu noteras que l’algo du moteur de recherche de Google, ou l’algo de choix des vidéos sur TikTok ou instagram est à ce jour en partie confidentiel. Tu noteras aussi que le communiqué de Swisscom ne donne pas beaucoup de précision sur le fonctionnement de leur IA générative promise pour l’automne 2024. Ce qui au passage pourrait en faire un chatgpt 100% suisse. Et avec des cartes Nvidia à 30’000$ l’unité, je n’imagine pas Swisscom faire preuve de plus de transparence que OpenAI.

Par : Cédric

Cédric — Sat, 08 Jun 2024 13:35:49 +0000

Voici une version corrigée et révisée de votre texte :

C’est possible de faire fonctionner ces outils (LM Studio, Chat4All, Jan…) sur votre machine, à condition qu’elle dispose d’une carte graphique Nvidia avec une quantité suffisante de mémoire ou d’un Mac équipé d’une puce Apple Silicon.

Personnellement, j’ai une machine Dell dans mon sous-sol, dotée de 32 Go de RAM et de deux cartes graphiques Nvidia Quadro P5000. J’ai acheté l’ensemble d’occasion sur Riccardo et eBay pour environ 800 CHF.

Sur cette machine, je fais tourner Ollama en utilisant le modèle Mixtral 8x7b quantifié en 4 bits (j’ai 16 Go de RAM par carte). Avec ce modèle, j’obtiens une inférence à 24 tokens par seconde. Si vous ne disposez pas de suffisamment de mémoire, vous pouvez utiliser Mixtral 8x7b quantifié en 2 bits pour le faire fonctionner sur une seule carte, auquel cas la vitesse d’inférence est de 12 tokens par seconde.

Après avoir testé plusieurs modèles, je trouve que le modèle Mixtral 8x7b offre le meilleur compromis entre les ressources nécessaires et la qualité des inférences, et il est comparable à un ChatPGPT 3.5 de l’automne dernier.

Je parviens également à faire fonctionner LLAMA3 70b quantifié sur 2 bits, mais cela est beaucoup plus lent (3,75 tokens par seconde). Bien entendu, LLAMA 3:8b fonctionne également (25 tokens par seconde), mais il est beaucoup plus limité que son grand frère.

Il convient de noter que la consommation d’électricité est un facteur à prendre en compte : une inférence consomme environ 200 watts (après quoi la consommation redescend).

Pour ce qui est des options entièrement européennes, il y a https://chat.mistral.ai/chat de l’entreprise française Mistral AI.

Par : Cricri

Cricri — Sat, 08 Jun 2024 08:45:27 +0000

Ce qu’il faudrait c’est un chatgpt 100% suisse ou européen dont on sait comment fonctionne les algos!