Protocole de test

Approche terrain : matériel accessible, documents réels, usages concrets pour PME, ASBL et indépendants.
La question centrale : que vaut réellement l’IA locale dans un usage quotidien ?

Environnements et modèles
Matériel couvert
  • PC portable
  • PC de bureau
  • Serveur local
GPT4All Ollama + AnythingLLM

Règle d’affectation : modèles 3-4B sur PC portable, 7-8B sur Serveur IA Light, 14B et plus sur Serveur IA. En général,un même modèle n’est pas testé sur plusieurs configurations.

Tailles de modèles
≈ 3B — léger ≈ 8B à 14B — intermédiaire
  • Compromis performance / qualité
  • Faisabilité sur matériel grand public
  • Matériel limité vs confortable
  • CPU vs GPU

Les configurations détaillées sont disponibles sur la page Matériel de test.

Corpus documentaires
Catégorie Documents types Niveaux
Administratif
  • Procédures internes
  • Règlement interne
  • Notes de service
  • Fiches de poste
N0 N1
Métier — PME
  • Fiches produits
  • Procédures logistiques
  • Documentation qualité
  • Conditions générales
N0 N1
Juridique / Réglementaire
  • Textes législatifs
  • Règlements sectoriels
  • Arrêtés / circulaires
  • Statuts d’ASBL
N0 N2
Associatif — ASBL
  • Statuts et règlement interne
  • Rapports d’activité
  • PV d’assemblée générale
N0 N1
Pédagogique
  • Programmes de cours
  • Guides méthodologiques
  • Référentiels de compétences
N0 N1 N2
Technique / IT
  • Manuels utilisateur
  • Guides d’installation
  • Documentation système
N0 N1 N2

Tous les documents utilisés sont réels et anonymisés. Chaque article précise le corpus et le niveau de préparation appliqués.

Niveaux de préparation documentaire
N0 : Brut Document tel quel Aucune transformation. Test de référence « utilisateur lambda ». Révèle les limites réelles du RAG.
N1 : Converti PDF vers TXT propre Conversion simple. Supprime le bruit sans restructurer. Gain souvent significatif.
N2 : Structuré Markdown structuré Conversion PDF vers Markdown via outil en ligne. Cas optimal pour corpus complexes (juridique, technique). Reflète un usage accessible à un public non technique.

Certains articles comparent plusieurs niveaux sur un même corpus.

Réglages
Prompt système commun — socle fixe
Tu es un assistant documentaire. Réponds uniquement à partir des documents fournis. Si la réponse n’est pas dans les documents, dis-le explicitement. Ne complète jamais avec des connaissances générales. Cite la source ou la section quand c’est possible.
Températures par catégorie
CatégorieTempératureLogique
Juridique / Réglementaire0.0 – 0.1Fidélité absolue, aucune paraphrase
Administratif0.1 – 0.2Précision, peu de reformulation
Technique / IT0.1 – 0.2Exactitude des procédures et commandes
Métier — PME0.2 – 0.3Précision et lisibilité
Pédagogique0.2 – 0.3Reformulation pédagogique tolérée
Associatif — ASBL0.2 – 0.3Contexte varié, ton adaptatif
Paramètres de vectorisation AnythingLLM
Corpus pédagogique, administratif, métier

Valeurs par défaut appliquées sans modification. Chunk size : 1000 tokens. Chevauchement : 20 tokens. Ces réglages sont accessibles via les paramètres globaux de l’application et non au niveau de l’espace de travail. Base vectorielle : LanceDB (embarquée par défaut). Reproductible par toute personne installant AnythingLLM sans configuration avancée.

Corpus juridique et technique dense

Réglages adaptés à la granularité des documents. Chunk size : 512 tokens. Chevauchement : 50 tokens. Un chunk de 1000 tokens fusionne plusieurs articles distincts sur un texte législatif, ce qui nuit à la précision de la récupération. Le chevauchement plus élevé préserve le contexte entre articles liés. Les valeurs appliquées sont précisées dans chaque article concerné.

La température est fixée avant chaque session et ne varie pas au sein d’un même article. Toute exception est signalée explicitement.

Paramètres de vectorisation GPT4All
Tous corpus confondus

Valeurs par défaut appliquées sans modification. Taille des snippets : 512 tokens. Snippets maximum par prompt : 3. Moteur d’embedding : défaut GPT4All. Aucun paramètre de chevauchement n’est disponible dans cette version. Reproductible par toute personne installant GPT4All sans configuration avancée.

Limite à prendre en compte

Le plafond de 3 snippets par prompt signifie que seuls 3 passages du corpus sont soumis au modèle par requête, quelle que soit la densité du document. Sur un corpus long ou complexe, des informations pertinentes peuvent ne pas être récupérées. Ce comportement est signalé dans chaque article concerné.

La température est fixée avant chaque session et ne varie pas au sein d’un même article. Toute exception est signalée explicitement.

Compléments de prompt par catégorie
Juridique
Les documents contiennent des textes législatifs. Respecte strictement la numérotation des articles. Ne reformule pas les dispositions légales.
Administratif
Les documents sont des procédures et règlements internes. Sois précis sur les étapes et les responsabilités.
Technique / IT
Les documents sont des manuels techniques. Reproduis fidèlement les commandes et étapes. Ne simplifie pas les procédures.
Métier — PME
Les documents sont des fiches produits et procédures opérationnelles. Sois précis sur les références, prix et conditions.
Pédagogique
Les documents sont des programmes officiels. Respecte la terminologie pédagogique officielle.
Associatif — ASBL
Les documents concernent la gouvernance et les activités d’une association. Sois attentif aux rôles, mandats et procédures statutaires.
Types de questions utilisées
Recherche directe Réponse directement présente dans le document.
Synthèse Résumé d’un ou plusieurs passages.
Croisement Nécessite plusieurs sources dans le corpus.
Piège anti-hallucination La réponse n’est pas dans les documents. Le modèle doit le reconnaître explicitement.
Question ambiguë Formulation imprécise. On teste la prudence et la capacité d’interprétation.
Critères d’évaluation
Qualité des réponses
  • Exactitude
  • Fidélité aux docs
  • Anti-hallucinations
Performance
  • Temps de réponse
  • Fluidité
  • Tokens/s (indicatif)
Stabilité
  • Comportement général
  • Erreurs éventuelles
  • Robustesse volumique
Confort d’usage
  • Simplicité
  • Lisibilité
  • Ergonomie
Pertinence terrain
  • Adapté PME / ASBL ?
  • Facilité de mise en place
  • Valeur réelle
Lecture des résultats
★★★★★
Très pertinentDirectement exploitable en conditions réelles.
★★★★☆
Pertinent sous conditionsNécessite des ajustements (matériel, usage ou configuration).
★★★☆☆
Limité — usage avec supervision uniquementFonctionne mais avec des contraintes importantes.
★★☆☆☆
Non adaptéUsage non recommandé dans cette configuration.
Philosophie du protocole
  • Tester des situations réalistes, pas des benchmarks théoriques
  • Privilégier l’usage concret plutôt que la performance brute
  • Rester transparent sur les limites
  • Fournir une vision claire, honnête et utile de l’IA locale