Environnement logiciel

IA LAB · Environnement logiciel

Présentation des outils open source utilisés dans le cadre du protocole du laboratoire de tests. Ces logiciels forment une stack locale complète permettant de déployer et d’interroger des modèles de langage sans recourir à un service cloud, sur du matériel accessible aux PME, associations et établissements scolaires.

Architecture de la stack locale

5 Utilisateur / Testeur Interface de dialogue, soumission des questions, évaluation des réponses

Humain

4 Interface RAG / Chat Ingestion du corpus, vectorisation, gestion du contexte, interface web

AnythingLLM GPT4All Open WebUI

3 Moteur d’inférence Chargement du modèle, gestion VRAM/RAM, API locale (port 11434)

Ollama

2 Modèle GGUF Fichier modèle quantisé chargé localement (Q4_K_M, etc.)

Ministral · Phi · Qwen…

1 Matériel CPU, GPU (VRAM), RAM : voir page Matériel de test

Hardware

Les couches 3 et 4 peuvent être combinées différemment selon l’outil : GPT4All embarque son propre moteur d’inférence en alternative à Ollama.

Moteur d’inférence

Ollama Moteur d’inférence local · Pièce maîtresse de la stack

Ollama Inc. Open Source Linux · macOS · Windows

Caractéristiques techniques

RôleMoteur d’inférence

Format modèlesGGUF (via llama.cpp)

API localeHTTP · port 11434

GPU supportésNVIDIA · AMD (ROCm)

Accélération AMDROCm (RX 9060 XT testé)

Informations générales

LicenceMIT

Site officielollama.com

Dépôtgithub.com/ollama

Registre modèlesollama.com/library

Installation1 commande (Linux/macOS)

Ollama est le cœur de la stack locale du laboratoire. Il prend en charge le téléchargement, le chargement et l’exécution des modèles de langage au format GGUF, en exploitant les ressources GPU/CPU disponibles via llama.cpp. Une fois lancé, il expose une API HTTP compatible avec le format OpenAI sur le port 11434, ce qui permet aux interfaces comme AnythingLLM ou Open WebUI de s’y connecter sans configuration complexe.

Son registre public propose des centaines de modèles directement utilisables via une simple commande ollama pull nom-du-modele. Sur les machines de test AMD (Serveur IA, RX 9060 XT 16 Go VRAM), Ollama exploite l’accélération ROCm pour des vitesses d’inférence excellentes, rivalisant avec les performances obtenues sur GPU Nvidia.

Rôle dans le protocole IA LAB

Ollama est présent sur toutes les machines de test (PC portable, PC Bureau, Serveur IA). Il constitue le backend d’inférence pour les sessions AnythingLLM. La version active au moment du test est notée dans chaque article de test.

Interfaces RAG et chat

AnythingLLM Interface RAG · Outil principal du protocole de test

Mintplex Labs Open Source Desktop · Serveur

Caractéristiques techniques

RôleInterface RAG complète

Ingestion corpusPDF · TXT · MD · DOCX…

VectorisationLanceDB (local, embarqué)

Backend LLMOllama · OpenAI · Anthropic…

ModeDesktop app ou Docker

Informations générales

LicenceMIT

Site officielanythingllm.com

Dépôtgithub.com/Mintplex-Labs

InterfaceWeb (localhost)

Données100 % locale · aucun cloud

AnythingLLM est l’outil RAG retenu comme référence dans le protocole de test du laboratoire. Il permet d’importer un corpus documentaire (PDF, TXT, Markdown…), de le vectoriser localement via LanceDB, puis d’interroger un modèle LLM avec ce corpus comme contexte. L’interface web accessible en localhost offre une gestion par workspaces, ce qui permet de recréer les trois niveaux de préparation du corpus (N0, N1, N2) de manière isolée pour chaque session.

La combinaison AnythingLLM + Ollama constitue la configuration de référence des tests IA LAB. Elle est reproductible sur n’importe quelle machine disposant de ressources suffisantes, sans compte ni abonnement.

Rôle dans le protocole IA LAB

AnythingLLM est utilisé pour toutes les sessions de test RAG sur différents corpus. Les paramètres de chaque session (taille des chunks, overlap, top-k) sont consignés dans l’article de test correspondant. Les workspaces N0/N1/N2 sont créés à chaque session et supprimés après validation des scores.

GPT4All Interface desktop autonome · Alternative plus accessible

Nomic AI Open Source Desktop

Caractéristiques techniques

RôleInterface desktop + moteur

Moteur embarquéllama.cpp intégré

RAG (LocalDocs)Oui · collection de fichiers

VectorisationNomic Embed (local)

Formats modèlesGGUF

Informations générales

LicenceMIT

Site officielnomic.ai/gpt4all

Dépôtgithub.com/nomic-ai

Public cibleGrand public · non-technique

InstallationInstalleur graphique

GPT4All est une application de bureau développée par Nomic AI qui embarque son propre moteur d’inférence basé sur llama.cpp. Contrairement à AnythingLLM, qui nécessite Ollama comme backend séparé, GPT4All fonctionne de manière entièrement autonome après installation. Son interface graphique très accessible en fait un candidat particulièrement pertinent pour des déploiements dans des contextes où la configuration technique doit rester minimale : enseignants, personnel administratif, petites structures.

GPT4All propose une fonctionnalité RAG appelée LocalDocs permettant d’interroger un corpus de documents locaux. Cette approche diffère d’AnythingLLM dans la gestion des collections et les paramètres de chunking, ce qui justifie son évaluation distincte dans le protocole.

Rôle dans le protocole IA LAB

GPT4All est testé en configuration alternative sur PC Portable, principalement pour évaluer des modèles 3-4B.

Tableau récapitulatif

Logiciel	Éditeur	Rôle	RAG	Backend LLM	Licence	Usage dans le protocole
Ollama	Ollama Inc.	Moteur d’inférence	Non	—	MIT	Toutes sessions
AnythingLLM	Mintplex Labs	Interface RAG	Oui · LanceDB	Ollama	MIT	Référence benchmark
GPT4All	Nomic AI	Interface desktop autonome	Oui · LocalDocs	Embarqué (llama.cpp)	MIT	Alternative · PC Portable

Le tableau est mis à jour au fil des évolutions de la stack.

Critères de sélection des outils

Tous les logiciels utilisés sont open source et déployables sans compte utilisateur ni abonnement
Aucune donnée ne quitte la machine : la confidentialité des corpus est garantie
Les outils sont sélectionnés pour leur reproductibilité : toute institution peut recréer la même stack à partir des mêmes instructions
La stack est conçue pour fonctionner sur du matériel grand public (à partir de 8 Go RAM, GPU fortement recommandé)