Ministral 3 3B · Programme de Français officiel FWB · N0 / N1 / N2
Test RAG comparatif · Ollama + AnythingLLM · PC portable · PDF brut (N0) · TXT converti (N1) · Markdown (N2)
| Q | Type | N0 | N1 | N2 | Observation |
|---|---|---|---|---|---|
| Q1 | Compétences de cycle | 3/5 | 3/5 | 3/5 | Score stable · glissement vers d’autres niveaux scolaires sur les trois niveaux · limite du corpus |
| Q2 | Objectif du programme | 4/5 | 3/5 | 5/5 | N1 régressif (chunk parasite) · N2 restitue la formule centrale avec localisation précise · seul 5/5 |
| Q3 | Approche en lecture | 3/5 | 4/5 | 3/5 | N1 meilleur (30s, 4/5) · N2 plus générique · la qualité du Markdown varie selon les sections |
| Q4 | Piège culturel | 3/5 | 3/5 | 4/5 | N0 et N1 : exemples inventés présentés comme documentaires · N2 distingue clairement corpus/inférence |
| Q5 | Piège anti-hallucination | 1/5 | 4/5 | 5/5 | Progression la plus forte du test · N0 invente un tableau de chiffres · N2 refuse proprement |
| Q6 | Différenciation pédagogique | 3/5 | 4/5 | 4/5 | N0 génère des exemples inventés · N1 et N2 ancrés · N2 le plus documenté mais 86s |
| Moyenne | 3,17 | 3,50 | 3,83 | Progression linéaire N0→N2 · N1 meilleur compromis temps/qualité sur config réduite | |
Le modèle reconnaît l’absence d’information horaire dans le corpus, puis invente un tableau de chiffres présentés comme officiels en avouant lui-même les avoir générés hors corpus. C’est le comportement RAG le plus problématique du test : une hallucination annoncée mais quand même produite. La préparation N1 puis N2 élimine progressivement ce comportement.
C’est le signal le plus fort de ce test : chaque niveau de préparation documentaire réduit significativement la tentation d’inventer des données absentes. N2 atteint la posture RAG idéale : identifier ce qui manque sans compenser par de l’invention. Argument décisif pour investir dans la préparation du corpus.
N1 gagne Q3 (4/5 en 30s), N2 gagne Q2 et Q5 (5/5), N0 reste compétitif sur Q2 (4/5). La qualité du Markdown produit varie selon les sections du document source, certaines passent mieux en TXT qu’en Markdown. La préparation optimale dépend des questions prioritaires pour l’usage visé.
1/5 → 4/5 → 5/5 sur le piège anti-hallucination. Chaque niveau de préparation réduit la tentation d’inventer des données absentes. C’est la démonstration la plus claire de l’impact de la qualité documentaire.
Meilleur temps moyen (37s), dégradation en session la plus faible (-21%), et résistance à l’hallucination nettement améliorée. Accessible sans compétences techniques, une seule commande de conversion suffit.
N2 gagne sur Q2 et Q5 mais régresse en Q3 par rapport à N1. Certaines sections du document source passent mieux en TXT qu’en Markdown selon l’outil utilisé. Vérification visuelle du fichier produit indispensable.
86 secondes sur Q6 en N2, dégradation du débit de -31% sur la session. La préparation documentaire améliore la qualité mais ne compense pas les contraintes matérielles. N2 est à réserver à une config plus puissante.
Voir la page Protocole de test pour le détail complet du protocole appliqué.