L'IA en local : est-ce viable ?

Pendant des années, nous avons migré nos outils et nos données vers le cloud. Au début, la question s’est posée de savoir si aller vers le cloud était la bonne voie pour toutes les entreprises, mais avec le temps il s’est imposé comme l’option par défaut pour l’immense majorité. Aujourd’hui, avec l’arrivée de l’IA, je me demande s’il est possible que nous rebroussions une partie de ce chemin, pour utiliser l’IA en local.

Avec l’arrivée du cloud, nous avons vu de plus en plus de fonctionnalités passer de nos PC à une exécution dans le cloud. Parmi les avantages du cloud figurait la possibilité d’accéder au logiciel en tant que service (ou SaaS), supprimant la nécessité d’acheter et d’installer une application puis de la maintenir à jour, en payant par abonnement plutôt qu’à l’achat. De plus, nous gagnions des sauvegardes transparentes de nos données, ainsi que la possibilité de partager et de travailler en collaboration facilement.

Mais nous avons aussi accepté des contreparties : nous dépendions d’une connexion Internet permanente, nos données étaient exposées au risque que le fournisseur les consulte ou les utilise, et nous acceptions un vendor lock-in important, car ces données vivaient sur l’infrastructure d’un tiers.

Avec l’IA, nous avons commencé directement dans le cloud, principalement parce que le coût du matériel nécessaire pour exécuter les modèles d’IA était hors de portée de la plupart des gens. Mais, comme pour toute technologie, le coût diminue avec le temps. C’est ce qui se passe avec l’open source, qui permet déjà d’exécuter sur un ordinateur personnel haut de gamme des modèles qui, il y a un peu plus d’un an, étaient à l’état de l’art.

Il est vrai que les plus grands modèles nécessitent encore du matériel coûteux, mais il existe des cas d’usage parfaitement réalisables en local, comme la recherche sémantique dans des documents, les questions-réponses, la traduction et certains cas d’usage de programmation. Bien que ce soit dans ce dernier domaine que les modèles dans le cloud conservent encore un avantage net.

Ce qui pousse vers l’IA locale

Actuellement, nous observons certains facteurs qui facilitent l’adoption de l’IA en local :

Les prix de l’IA dans le cloud ont fortement augmenté, en grande partie parce qu’ils cessent d’être subventionnés. C’est déjà un problème pour les entreprises qui l’ont adoptée pleinement : pratiquement du jour au lendemain, elles voient le prix qu’elles paient pour l’IA se multiplier. Dans bien des cas, cela conduit les entreprises à réduire leur usage, avec la perte de productivité qui en découle alors qu’elles l’avaient déjà gagnée.
Garder le contrôle sur la confidentialité des données devient plus difficile et les risques augmentent. Pour tirer le meilleur parti de nos données avec l’IA, nous devons lui donner accès. Pour la première fois, nous disposons d’une technologie qui simplifie l’intégration entre différents systèmes, supprimant la nécessité de créer des intégrations ad hoc coûteuses. Cependant, l’idée de donner accès à tous nos systèmes à une IA appartenant à un tiers représente un risque qu’il ne faut pas prendre à la légère. J’ai le sentiment que certaines entreprises prennent cette décision en la considérant comme un cas d’usage du cloud de plus. Pourtant, il s’agit d’une technologie nouvelle, capable d’extraire de nos données une valeur qui n’était pas possible auparavant.
La géopolitique a placé la souveraineté technologique au centre. À l’heure actuelle, les grands labos d’IA sont américains ou chinois, avec tout ce que cela implique. En Europe, de nombreuses entreprises ne peuvent pas, pour des raisons réglementaires, faire sortir leurs données de l’Union européenne, et elles rencontrent des difficultés à adopter l’IA pour cette raison. L’IA en local peut être une solution à beaucoup de ces problèmes.
Les fabricants de matériel misent de plus en plus sur des machines capables d’exécuter l’IA en local. D’abord ce fut Apple avec Apple silicon et la mémoire unifiée, et maintenant ce sont Nvidia et Microsoft qui ont présenté des machines pour exécuter facilement l’IA sous Windows. Par ailleurs, Apple vient de présenter Siri AI, qui utilisera un modèle d’exécution hybride où les requêtes simples sont exécutées sur l’appareil et les plus complexes voyagent vers le cloud d’Apple. Bien que le modèle soit celui de Google, ils garantissent qu’aucune donnée ne sortira des serveurs d’Apple, et que Google n’y aura pas accès.
L’infrastructure actuelle n’est pas capable de satisfaire toute la demande, et il n’est pas rare que les modèles connaissent des pannes de disponibilité qui interrompent l’usage normal. Personnellement, je peux dire que ces derniers mois, j’ai connu chaque semaine au moins plusieurs erreurs dues à la surcharge des API des modèles d’IA, devant interrompre des tâches de programmation jusqu’au rétablissement du service.

Ce qui freine l’IA en local

Cela dit, l’IA locale présente certains inconvénients qui, bien qu’ils puissent être atténués et améliorés avec le temps, ne disparaîtront pas complètement, j’en doute :

Coût du matériel : À ce jour, ils nécessitent des machines de milieu et haut de gamme pour fonctionner, les Mac équipés d’Apple silicon étant les machines sur lesquelles il est le plus simple de faire tourner l’IA. Même si profiter des plus grands modèles requiert pas mal de RAM, avec 16 Go nous pouvons déjà faire tourner des modèles qui permettent de poser des questions, de résumer des e-mails ou de faire des traductions. C’est une inconnue de savoir si viendra le jour où nous pourrons exécuter intégralement en local des modèles à l’état de l’art gérant de grandes fenêtres de contexte, ou s’il faudra continuer à utiliser le cloud pour ces cas.
Connaissances techniques : Une grande partie des logiciels actuels pour exécuter l’IA en local requiert certaines connaissances techniques qui les rendent complexes pour les utilisateurs non techniques. Même le choix du modèle idéal pour notre matériel et notre cas d’usage n’est pas une tâche triviale. Bien que des modèles comme qwen3.5 4b ou gemma4 e4b soient plutôt bons sur des machines avec 16 Go de RAM pour de nombreux cas d’usage.
Précision : La qualité et la précision des réponses sont généralement plus faibles que celles des modèles des grands labos, et elles sont aussi plus sensibles à la qualité des prompts. Si nous avons l’habitude d’utiliser ChatGPT ou Claude, nous savons que bien souvent nous pouvons leur donner un prompt vague et obtenir de bonnes réponses. Avec les petits modèles, nous devons davantage travailler le prompt et, malgré cela, la qualité de la réponse peut ne pas être la même.
Taille du contexte : Comme les machines personnelles disposent de moins de mémoire, nous avons une limite sur la taille du contexte que nous pouvons utiliser à chaque requête. La taille de contexte utilisable en local est environ un à deux ordres de grandeur en dessous de ce que nous pouvons utiliser dans le cloud.
Vitesse : Les modèles dans le cloud répondent généralement plus vite, tandis qu’en local il faut souvent attendre plus longtemps, bien que cela varie beaucoup selon le matériel, le modèle et le cas d’usage. L’expérience utilisateur des modèles distants est nettement meilleure que celle des modèles locaux.
Accès aux données : En raison de l’usage du cloud que nous faisons depuis longtemps, une partie de nos données est hébergée sur des plateformes auxquelles l’IA locale ne peut pas toujours accéder. C’est une forme de vendor lock-in qui complique l’utilisation de l’IA locale avec nos données.

Je pense qu’à ce jour, le plus grand argument pour les entreprises en faveur de l’IA locale est de conserver le contrôle total sur la confidentialité des données. Sur ce point, son avantage sur l’IA dans le cloud est indiscutable. Supprimer l’inquiétude liée au contrôle des données débloque aussi davantage de cas d’usage que les entreprises limitent aujourd’hui. Disposer d’une IA ayant un accès total à vos documents, vos e-mails, votre code, etc., sans avoir à vous soucier de ce qu’il advient de vos données lorsqu’elles sortent de votre périmètre, permet de tirer le maximum de valeur du potentiel actuel de l’IA.

–

PS : Nous mettons ces idées en pratique, c’est pourquoi nous avons créé un client de messagerie qui exécute l’IA 100 % en local. Si cela vous intéresse, vous pouvez visiter : → https://getemailops.com