IA LAB · Environnement logiciel

Environnement logiciel

Présentation des outils open source utilisés dans le cadre du protocole du laboratoire de tests. Ces logiciels forment une stack locale complète permettant de déployer et d’interroger des modèles de langage sans recourir à un service cloud, sur du matériel accessible aux PME, associations et établissements scolaires.

Architecture de la stack locale
5 Utilisateur / Testeur Interface de dialogue, soumission des questions, évaluation des réponses
Humain
4 Interface RAG / Chat Ingestion du corpus, vectorisation, gestion du contexte, interface web
AnythingLLM GPT4All Open WebUI
3 Moteur d’inférence Chargement du modèle, gestion VRAM/RAM, API locale (port 11434)
Ollama
2 Modèle GGUF Fichier modèle quantisé chargé localement (Q4_K_M, etc.)
Ministral · Phi · Qwen…
1 Matériel CPU, GPU (VRAM), RAM : voir page Matériel de test
Hardware

Les couches 3 et 4 peuvent être combinées différemment selon l’outil : GPT4All embarque son propre moteur d’inférence en alternative à Ollama.

Moteur d’inférence
Ollama Moteur d’inférence local · Pièce maîtresse de la stack
Ollama Inc. Open Source Linux · macOS · Windows
Caractéristiques techniques
RôleMoteur d’inférence
Format modèlesGGUF (via llama.cpp)
API localeHTTP · port 11434
GPU supportésNVIDIA · AMD (ROCm)
Accélération AMDROCm (RX 9060 XT testé)
Informations générales
LicenceMIT
Site officielollama.com
Registre modèlesollama.com/library
Installation1 commande (Linux/macOS)
Ollama est le cœur de la stack locale du laboratoire. Il prend en charge le téléchargement, le chargement et l’exécution des modèles de langage au format GGUF, en exploitant les ressources GPU/CPU disponibles via llama.cpp. Une fois lancé, il expose une API HTTP compatible avec le format OpenAI sur le port 11434, ce qui permet aux interfaces comme AnythingLLM ou Open WebUI de s’y connecter sans configuration complexe.

Son registre public propose des centaines de modèles directement utilisables via une simple commande ollama pull nom-du-modele. Sur les machines de test AMD (Serveur IA, RX 9060 XT 16 Go VRAM), Ollama exploite l’accélération ROCm pour des vitesses d’inférence excellentes, rivalisant avec les performances obtenues sur GPU Nvidia.
Rôle dans le protocole IA LAB
Ollama est présent sur toutes les machines de test (PC portable, PC Bureau, Serveur IA). Il constitue le backend d’inférence pour les sessions AnythingLLM. La version active au moment du test est notée dans chaque article de test.
Interfaces RAG et chat
AnythingLLM Interface RAG · Outil principal du protocole de test
Mintplex Labs Open Source Desktop · Serveur
Caractéristiques techniques
RôleInterface RAG complète
Ingestion corpusPDF · TXT · MD · DOCX…
VectorisationLanceDB (local, embarqué)
Backend LLMOllama · OpenAI · Anthropic…
ModeDesktop app ou Docker
Informations générales
LicenceMIT
Site officielanythingllm.com
InterfaceWeb (localhost)
Données100 % locale · aucun cloud
AnythingLLM est l’outil RAG retenu comme référence dans le protocole de test du laboratoire. Il permet d’importer un corpus documentaire (PDF, TXT, Markdown…), de le vectoriser localement via LanceDB, puis d’interroger un modèle LLM avec ce corpus comme contexte. L’interface web accessible en localhost offre une gestion par workspaces, ce qui permet de recréer les trois niveaux de préparation du corpus (N0, N1, N2) de manière isolée pour chaque session.

La combinaison AnythingLLM + Ollama constitue la configuration de référence des tests IA LAB. Elle est reproductible sur n’importe quelle machine disposant de ressources suffisantes, sans compte ni abonnement.
Rôle dans le protocole IA LAB
AnythingLLM est utilisé pour toutes les sessions de test RAG sur différents corpus. Les paramètres de chaque session (taille des chunks, overlap, top-k) sont consignés dans l’article de test correspondant. Les workspaces N0/N1/N2 sont créés à chaque session et supprimés après validation des scores.
GPT4All Interface desktop autonome · Alternative plus accessible
Nomic AI Open Source Desktop
Caractéristiques techniques
RôleInterface desktop + moteur
Moteur embarquéllama.cpp intégré
RAG (LocalDocs)Oui · collection de fichiers
VectorisationNomic Embed (local)
Formats modèlesGGUF
Informations générales
LicenceMIT
Site officielnomic.ai/gpt4all
Public cibleGrand public · non-technique
InstallationInstalleur graphique
GPT4All est une application de bureau développée par Nomic AI qui embarque son propre moteur d’inférence basé sur llama.cpp. Contrairement à AnythingLLM, qui nécessite Ollama comme backend séparé, GPT4All fonctionne de manière entièrement autonome après installation. Son interface graphique très accessible en fait un candidat particulièrement pertinent pour des déploiements dans des contextes où la configuration technique doit rester minimale : enseignants, personnel administratif, petites structures.

GPT4All propose une fonctionnalité RAG appelée LocalDocs permettant d’interroger un corpus de documents locaux. Cette approche diffère d’AnythingLLM dans la gestion des collections et les paramètres de chunking, ce qui justifie son évaluation distincte dans le protocole.
Rôle dans le protocole IA LAB
GPT4All est testé en configuration alternative sur PC Portable, principalement pour évaluer des modèles 3-4B.
Tableau récapitulatif
Logiciel Éditeur Rôle RAG Backend LLM Licence Usage dans le protocole
Ollama Ollama Inc. Moteur d’inférence Non MIT Toutes sessions
AnythingLLM Mintplex Labs Interface RAG Oui · LanceDB Ollama MIT Référence benchmark
GPT4All Nomic AI Interface desktop autonome Oui · LocalDocs Embarqué (llama.cpp) MIT Alternative · PC Portable

Le tableau est mis à jour au fil des évolutions de la stack.

Critères de sélection des outils
  • Tous les logiciels utilisés sont open source et déployables sans compte utilisateur ni abonnement
  • Aucune donnée ne quitte la machine : la confidentialité des corpus est garantie
  • Les outils sont sélectionnés pour leur reproductibilité : toute institution peut recréer la même stack à partir des mêmes instructions
  • La stack est conçue pour fonctionner sur du matériel grand public (à partir de 8 Go RAM, GPU fortement recommandé)