Fred Voyage - Quelles IA pour quoi faire ?

Quelles IA pour quoi faire ?

Dossiers

2025-01-11

L'expression Intelligence Artificielle est en fait un anglicisme traduit simplement mot pour moi, et qui, en français pourrait être traduit un peu différemment. En anglais, le mot intelligence regroupe à la fois les capacités mentales d'une personne, mais aussi le fait de centraliser de l'information. Les services secrets sont appelés intelligence services de manière générale.

Dans les années 2010, on parlait d'algorithme et de big data. Le principe était alors de collecter de l'information et de trouver des moyens pour pouvoir traiter cette information qui est devenue tellement abondante qu'un humain est difficilement capable de la traiter manuellement. On a alors fait appel à des réseaux de neurones pour faire du deep learning, ce qui consiste à faire apprendre à un ordinateur certaines choses à partir de son expérience. On n'obtient alors plus des algorithmes qui sont capables de donner des réponses en binaire, mais des machines qui, à force de voir passer des milliers d'images à travers ces neurones, se créent un modèle, et jugeront alors des probabilités plutôt que des données binaires. Cela permet alors de dire qu'il y a une probabilité de 40% ou bien de 90% que cette image corresponde à ce qui est demandé (très utilisé pour analyser des clichés en médecine par exemple).

Sur ces bases d'algorithmes, de réseaux de neurones et de big data, posées au 20ème siècle, se sont développés les grands modèles de langage (LLM en anglais). Ils utilisent des réseaux de neurones en convertissant notamment les mots et signes de nos langues en token (jeton) et analyse la probabilité que certains mots aillent ensemble, pour soit comprendre (sans aucun raisonnement) ou produire du texte, des images ou du son.

C'est ainsi que le 30 novembre 2022, OpenAI, une entreprise californienne fondée en 2015 et dont l'objectif était de proposer des outils pour avancer dans l'intelligence artificielle, a mis en ligne, accessible à tous, ChatGPT, son moteur conversationnel. D'autres modèles d'IA, notamment Dall-E, étaient déjà proposés dès 2021 par OpenAI pour permettre la création d'images.

Bien sûr, OpenAI n'est pas le seul à proposer ces services, et ChatGPT n'est pas leur seul modèle proposé. Il existe aujourd'hui de nombreux services proposant du texte, des images, des analyses de fichiers, et tout a commencé à la suite ou juste avant ChatGPT en 2022.

Il est important de comprendre que ces modèles ne permettent pas de tout faire. C'est leur domaine de compétences et leurs spécificités qui permet de bien les utiliser. C'est pourquoi, suivant les usages, on va privilégier certains modèles.

Si on prend les modèles qui permettent de créer du texte, voici les plus connus :

ChatGPT d'OpenAI
Claude d'Anthopic
Mistral AI (société du même nom)
Gemini de Google
Llama de Meta (Facebook)
Grok de xAI (Elon Musk)
DeepSeek (Chinois)

A l'intérieur de cette liste, chaque société a différents modèles. Par exemple, pour Anthropic, il existe plusieurs modèles :

Claude 3.5 Sonnet : le meilleur modèle, rapide et efficace
Claude 3.5 Haiku : le meilleur rapport qualité prix avec un peu moins de contexte
Claude 3 Opus : le modèle à utiliser pour des tâches complexes

Chaque modèle a ses propres avantages et inconvénients. Généralement, c'est au niveau du prix que la différence se fait sentir, avec une requête sur Claude 3.5 Sonnet 4 à 5 fois plus cher que Claude 3.5 Haiku, et Claude 3 Opus sera 5 fois plus cher que Claude 3.5 Sonnet.

Malgré cela, le prix d'une requête sur Claude 3.5 Haiku ne dépasse jamais un centime, et quelques centimes sur Claude 3.5 Sonnet.

J'ai parlé de quelques modèles, mais ce n'est pas tout car lorsque l'on fait une requête auprès d'un modèle, il faut envoyer différents paramètres. Les 2 plus importants sont le rôle et le message. Le rôle va indiquer au modèle comment il doit se placer. Par exemple, si je suis technicien et que je cherche une solution technique, je vais indiquer au modèle qu'il doit se comporter comme un technicien, parler certaines langues, et donner une réponse de tel type qui pourra me convenir (par exemple en expliquant les termes techniques ou en restant plus accessible au public). L'autre partie, c'est le prompt : le message que je vais écrire pour obtenir la réponse que je recherche. Plus ce prompt sera précis, plus la réponse apportée sera proche de ce que je recherche, mais si mon prompt n'est pas précis ou qu'il peut y avoir une ambiguïté avec d'autres termes, alors la réponse peut être totalement hors sujet.

C'est là que se place des fournisseurs que l'on pourrait qualifier de second niveau. Il existe beaucoup de fournisseurs de ce type dont l'objectif est de spécialiser le modèle dans une tâche spécifique (écrire une histoire, générer du code, faire des mathématiques, ...) ou d'aider l'utilisateur à améliorer son prompt en analysant par exemple la requête plusieurs fois (Perplexity fait cela par exemple).

C'est pourquoi, pour chaque tâche, il faut utiliser des fournisseurs différents. Actuellement, après quelques recherches et quelques essais, j'utilise plusieurs modèles suivant les besoins que j'ai, et je suis très satisfait des réponses, les voici :

pour tout ce qui a un rapport avec du code (générer du code, comprendre le code d'une application, mettre à jour du code existant pour des versions de langage différentes), j'utilise Cursor. C'est un outil intégré à une version spécifique de VS Code que l'on peut télécharger gratuitement sur leur site. Un outil de chat est intégré à plusieurs niveaux dans le logiciel et l'outil permet aussi de faire de l'auto-completion. Cursor utilise Claude 3.5 Sonnet par défaut, mais propose aussi d'autres versions de Claude, ainsi que différentes versions de Chat GPT et une version adaptée directement par Cursor pour leur usage : cursor-small.
Le prix de l'outil est intéressant, environ 15€ par mois pour un usage individuel (personnel ou professionnel) et une version gratuite est aussi disponible.
pour tout ce qui concerne des recherches sur internet, la synthèse de documents, les recherches techniques, j'utilise Perplexity. Cet outil utilise par défaut Claude, Haiku ou Sonnet, mais propose en version Pro des IA de Chat GPT, Grok ou leur modèle propriétaire Sonar Large. L'avantage de cet outil est que c'est à la fois une IA et un moteur de recherche. L'outil adapte le prompt, le décompose (surtout en version Pro) et fait différentes recherches, puis il en fait une synthèse et il en ressort la synthèse avec les liens vers les sources, ce qui est vraiment très bien pour avoir une solution, et parfois, quand le modèle ne comprend pas tout ou que je ne comprends pas toute la synthèse, il suffit d'aller lire le détail sur les sites cités en source.
Le prix est autour de 16€ par mois et cela permet d'avoir de meilleurs options de recherche et un accès limité à l'API ($5 de crédit d'API par mois, ce qui représente plus de 400 appels, donc la limite est large).
pour les besoins professionnels, je fais appel à Mistral AI pour tout ce qui concerne les besoin de relire la grammaire ou de créer un texte à partir d'une simple phrase ou mots, ce qui permet de répondre plus vite aux clients. Mistral AI est très bon pour le texte en français, et les requêtes sont facturées moins de 0.1 centime chacune.
Le prix est de $0.20 par Million de token en entrée et $0.60 par Million de token en sortie, ce qui revient à environ 0.05 centimes à 0.1 centimes par requête.
pour la même chose en anglais, Claude 3.5 Haiku est idéal.
Le prix est de $0.80 par Million de token en entrée et $4 par Million de token en sortie, ce qui revient un peu plus cher que Mistral AI, mais toujours sous le centime.
pour d'autres besoins professionnels, comme l'analyse de documents (OCR), notamment au niveau de la réception et du tri des factures, Claude 3.5 Sonnet est tout à fait approprié, mais un peu plus cher. Il me permet d'obtenir les informations de la facture directement dans des champs pour l'incorporer après vérification manuelle pour le moment, dans mon système, mais au fur et à mesure de l'utilisation, cette vérification pourra prendre encore moins de temps voire s'automatiser complètement.
Le prix est de $3 par Million de token en entrée et $15 par Million de token en sortie. Pour un document analysé, comme les données en sortie sont uniquement des données techniques (nom de la société et différentes lignes de prix), le nombre de token est très bas, ce qui permet d'avoir un prix très raisonnable, toujours en-dessous du centime par demande.

Cet article parle principalement de mon travail, mais j'avais aussi fait un comparatif des IA génératives qui permettent de faire des images ici.

Nous ne sommes qu'au début de ces applications car la plupart des modèles, même s'ils viennent de bases plus anciennes, ont simplement quelques années. Chaque année, de nouvelles mises à jour apparaissent, avec, à chaque fois, des améliorations dans différents types d'application.

Ce qu'il faut bien comprendre pour ne pas se laisser emporter par l'expression marketing d'intelligence artificielle, c'est que ces modèles de langage font un travail de probabilité à la base, et les comparatifs que l'on peut trouver sur internet font de même : ils comparent les capacités de chaque modèle pour savoir si leur réponse est appropriée et fiable. On peut passer de 15% de réponse fiable sur des questions de mathématiques ou de problèmes complexes, à plus de 90% de bonnes réponses, notamment pour ce qui est d'écrire du code.

Les domaines de prédilection pour les LLM (grands modèles de langue) sont principalement :

la rédaction de synthèses de documents ou le fait de permettre à un utilisateur de poser des questions sur des documents
l'écriture de code dans tous les types de langage, car il existe beaucoup de sources et les modèles ont été entraîné sur beaucoup de codes, ce qui est montré par les comparatifs, puisque c'est le domaine dans lequel les LLM font plus de 90% de bons résultats
l'utilisation comme assistant pour des tâches liées à la recherche de données, à la synthèse, au traitement de données, ou à la création d'outils pour ces tâches
tout ce qui touche à la traduction
la possibilité d'aider une personne à apprendre quelque chose car l’interaction est possible pour permettre de rentrer dans des détails si l'utilisateur ne comprend pas quelque chose
la rédaction de tout ce qui peut être lié à du texte (ou des images/sons suivant les modèles), comme écrire un article, ou même un romain ou une histoire, car le modèle pourra le faire en y mettant ce que l'utilisateur voudra y ajouter aussi.

Il faut surtout bien comprendre que les LLM et donc l'IA Générative que nous avons actuellement ne comprend pas ce qu'elle écrit, et n'est pas consciente d'elle-même. Elle ne prend jamais d'initiative mais ne fait qu'analyser une situation pour répondre de la manière dont elle a appris à le faire. Nous sommes loin d'avoir en une IA Générative une secrétaire, qui pourrait gérer notre vie, mais plutôt un assistant qui sait où trouver tous types d'informations et pourrait nous aider à faire notre travail ou organiser notre vie d'une manière optimale et plus rapide.

Nous verrons dans les mois qui viennent où nous mènent les prochaines innovations, dans les différents domaines où l'IA est présente aujourd'hui : textes, images, sons, mais aussi médecine, voitures autonomes, robotique, ...