Protocole de test

Approche terrain : matériel accessible, documents réels, usages concrets pour PME, ASBL et indépendants.
La question centrale : que vaut réellement l’IA locale dans un usage quotidien ?

Environnements et modèles

Matériel couvert

PC portable
PC de bureau
Serveur local

GPT4All Ollama + AnythingLLM

Règle d’affectation : modèles 3-4B sur PC portable, 7-8B sur Serveur IA Light, 14B et plus sur Serveur IA. En général,un même modèle n’est pas testé sur plusieurs configurations.

Tailles de modèles

≈ 3B — léger ≈ 8B à 14B — intermédiaire

Compromis performance / qualité
Faisabilité sur matériel grand public
Matériel limité vs confortable
CPU vs GPU

Les configurations détaillées sont disponibles sur la page Matériel de test.

Corpus documentaires

Catégorie	Documents types	Niveaux
Administratif	Procédures internes Règlement interne Notes de service Fiches de poste	N0 N1
Métier — PME	Fiches produits Procédures logistiques Documentation qualité Conditions générales	N0 N1
Juridique / Réglementaire	Textes législatifs Règlements sectoriels Arrêtés / circulaires Statuts d’ASBL	N0 N2
Associatif — ASBL	Statuts et règlement interne Rapports d’activité PV d’assemblée générale	N0 N1
Pédagogique	Programmes de cours Guides méthodologiques Référentiels de compétences	N0 N1 N2
Technique / IT	Manuels utilisateur Guides d’installation Documentation système	N0 N1 N2

Tous les documents utilisés sont réels et anonymisés. Chaque article précise le corpus et le niveau de préparation appliqués.

Niveaux de préparation documentaire

N0 : Brut Document tel quel Aucune transformation. Test de référence « utilisateur lambda ». Révèle les limites réelles du RAG.

N1 : Converti PDF vers TXT propre Conversion simple. Supprime le bruit sans restructurer. Gain souvent significatif.

N2 : Structuré Markdown structuré Conversion PDF vers Markdown via outil en ligne. Cas optimal pour corpus complexes (juridique, technique). Reflète un usage accessible à un public non technique.

Certains articles comparent plusieurs niveaux sur un même corpus.

Réglages

Prompt système commun — socle fixe

Tu es un assistant documentaire. Réponds uniquement à partir des documents fournis. Si la réponse n’est pas dans les documents, dis-le explicitement. Ne complète jamais avec des connaissances générales. Cite la source ou la section quand c’est possible.

Températures par catégorie

Catégorie	Température	Logique
Juridique / Réglementaire	0.0 – 0.1	Fidélité absolue, aucune paraphrase
Administratif	0.1 – 0.2	Précision, peu de reformulation
Technique / IT	0.1 – 0.2	Exactitude des procédures et commandes
Métier — PME	0.2 – 0.3	Précision et lisibilité
Pédagogique	0.2 – 0.3	Reformulation pédagogique tolérée
Associatif — ASBL	0.2 – 0.3	Contexte varié, ton adaptatif

Paramètres de vectorisation AnythingLLM

Corpus pédagogique, administratif, métier

Valeurs par défaut appliquées sans modification. Chunk size : 1000 tokens. Chevauchement : 20 tokens. Ces réglages sont accessibles via les paramètres globaux de l’application et non au niveau de l’espace de travail. Base vectorielle : LanceDB (embarquée par défaut). Reproductible par toute personne installant AnythingLLM sans configuration avancée.

Corpus juridique et technique dense

Réglages adaptés à la granularité des documents. Chunk size : 512 tokens. Chevauchement : 50 tokens. Un chunk de 1000 tokens fusionne plusieurs articles distincts sur un texte législatif, ce qui nuit à la précision de la récupération. Le chevauchement plus élevé préserve le contexte entre articles liés. Les valeurs appliquées sont précisées dans chaque article concerné.

La température est fixée avant chaque session et ne varie pas au sein d’un même article. Toute exception est signalée explicitement.

Paramètres de vectorisation GPT4All

Tous corpus confondus

Valeurs par défaut appliquées sans modification. Taille des snippets : 512 tokens. Snippets maximum par prompt : 3. Moteur d’embedding : défaut GPT4All. Aucun paramètre de chevauchement n’est disponible dans cette version. Reproductible par toute personne installant GPT4All sans configuration avancée.

Limite à prendre en compte

Le plafond de 3 snippets par prompt signifie que seuls 3 passages du corpus sont soumis au modèle par requête, quelle que soit la densité du document. Sur un corpus long ou complexe, des informations pertinentes peuvent ne pas être récupérées. Ce comportement est signalé dans chaque article concerné.

La température est fixée avant chaque session et ne varie pas au sein d’un même article. Toute exception est signalée explicitement.

Compléments de prompt par catégorie

Juridique

Les documents contiennent des textes législatifs. Respecte strictement la numérotation des articles. Ne reformule pas les dispositions légales.

Administratif

Les documents sont des procédures et règlements internes. Sois précis sur les étapes et les responsabilités.

Technique / IT

Les documents sont des manuels techniques. Reproduis fidèlement les commandes et étapes. Ne simplifie pas les procédures.

Métier — PME

Les documents sont des fiches produits et procédures opérationnelles. Sois précis sur les références, prix et conditions.

Pédagogique

Les documents sont des programmes officiels. Respecte la terminologie pédagogique officielle.

Associatif — ASBL

Les documents concernent la gouvernance et les activités d’une association. Sois attentif aux rôles, mandats et procédures statutaires.

Types de questions utilisées

Recherche directe Réponse directement présente dans le document.

Synthèse Résumé d’un ou plusieurs passages.

Croisement Nécessite plusieurs sources dans le corpus.

Piège anti-hallucination La réponse n’est pas dans les documents. Le modèle doit le reconnaître explicitement.

Question ambiguë Formulation imprécise. On teste la prudence et la capacité d’interprétation.

Critères d’évaluation

Qualité des réponses

Exactitude
Fidélité aux docs
Anti-hallucinations

Performance

Temps de réponse
Fluidité
Tokens/s (indicatif)

Stabilité

Comportement général
Erreurs éventuelles
Robustesse volumique

Confort d’usage

Simplicité
Lisibilité
Ergonomie

Pertinence terrain

Adapté PME / ASBL ?
Facilité de mise en place
Valeur réelle

Lecture des résultats

★★★★★

Très pertinentDirectement exploitable en conditions réelles.

★★★★☆

Pertinent sous conditionsNécessite des ajustements (matériel, usage ou configuration).

★★★☆☆

Limité — usage avec supervision uniquementFonctionne mais avec des contraintes importantes.

★★☆☆☆

Non adaptéUsage non recommandé dans cette configuration.

Philosophie du protocole

Tester des situations réalistes, pas des benchmarks théoriques
Privilégier l’usage concret plutôt que la performance brute
Rester transparent sur les limites
Fournir une vision claire, honnête et utile de l’IA locale