Ministral 3 3B · Programme de Français officiel FWB · N0 / N1 / N2

Test RAG comparatif · Ollama + AnythingLLM · PC portable · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test
Modèle
Ministral 3 3B
Mistral AI · modèle léger · Q4_K_M
Score moyen N0
3,17 / 5
PDF brut
Score moyen N1
3,50 / 5
TXT converti
Score moyen N2
3,83 / 5
Markdown
Vitesse
~16–17 tok/s
Dégradation en fin de session
PC portable
CPU Ryzen 5 5600H
RAM 8 Go DDR5
GPU GTX 1650 · 4 Go VRAM
OS Debian 13
Résultats par question
Q Type N0 N1 N2 Observation
Q1 Compétences de cycle 3/5 3/5 3/5 Score stable · glissement vers d’autres niveaux scolaires sur les trois niveaux · limite du corpus
Q2 Objectif du programme 4/5 3/5 5/5 N1 régressif (chunk parasite) · N2 restitue la formule centrale avec localisation précise · seul 5/5
Q3 Approche en lecture 3/5 4/5 3/5 N1 meilleur (30s, 4/5) · N2 plus générique · la qualité du Markdown varie selon les sections
Q4 Piège culturel 3/5 3/5 4/5 N0 et N1 : exemples inventés présentés comme documentaires · N2 distingue clairement corpus/inférence
Q5 Piège anti-hallucination 1/5 4/5 5/5 Progression la plus forte du test · N0 invente un tableau de chiffres · N2 refuse proprement
Q6 Différenciation pédagogique 3/5 4/5 4/5 N0 génère des exemples inventés · N1 et N2 ancrés · N2 le plus documenté mais 86s
Moyenne 3,17 3,50 3,83 Progression linéaire N0→N2 · N1 meilleur compromis temps/qualité sur config réduite
Comportement notable · Q5 N0 · hallucination franche

Le modèle reconnaît l’absence d’information horaire dans le corpus, puis invente un tableau de chiffres présentés comme officiels en avouant lui-même les avoir générés hors corpus. C’est le comportement RAG le plus problématique du test : une hallucination annoncée mais quand même produite. La préparation N1 puis N2 élimine progressivement ce comportement.

Comportement notable · Q5 · progression 1→4→5

C’est le signal le plus fort de ce test : chaque niveau de préparation documentaire réduit significativement la tentation d’inventer des données absentes. N2 atteint la posture RAG idéale : identifier ce qui manque sans compenser par de l’invention. Argument décisif pour investir dans la préparation du corpus.

Comportement notable · aucun niveau universellement supérieur

N1 gagne Q3 (4/5 en 30s), N2 gagne Q2 et Q5 (5/5), N0 reste compétitif sur Q2 (4/5). La qualité du Markdown produit varie selon les sections du document source, certaines passent mieux en TXT qu’en Markdown. La préparation optimale dépend des questions prioritaires pour l’usage visé.

Enseignements
La progression sur Q5 est l’argument décisif

1/5 → 4/5 → 5/5 sur le piège anti-hallucination. Chaque niveau de préparation réduit la tentation d’inventer des données absentes. C’est la démonstration la plus claire de l’impact de la qualité documentaire.

N1 : meilleur compromis sur config réduite

Meilleur temps moyen (37s), dégradation en session la plus faible (-21%), et résistance à l’hallucination nettement améliorée. Accessible sans compétences techniques, une seule commande de conversion suffit.

La qualité du Markdown conditionne les gains N2

N2 gagne sur Q2 et Q5 mais régresse en Q3 par rapport à N1. Certaines sections du document source passent mieux en TXT qu’en Markdown selon l’outil utilisé. Vérification visuelle du fichier produit indispensable.

Config réduite : facteur limitant en fin de session

86 secondes sur Q6 en N2, dégradation du débit de -31% sur la session. La préparation documentaire améliore la qualité mais ne compense pas les contraintes matérielles. N2 est à réserver à une config plus puissante.

Verdicts par niveau de préparation
★★★☆☆
N0 · Limité · usage avec supervision uniquement Hallucine sur les données absentes du corpus et se dégrade fortement en fin de session. À réserver à une exploration rapide sans enjeu de fiabilité.
★★★★★
N1 · Très pertinent · recommandé sur config réduite Meilleur compromis qualité/temps/stabilité. Résistance à l’hallucination nettement améliorée. Dégradation en session la plus faible (-21%). Accessible sans compétences techniques particulières.
★★★★★
N2 · Très pertinent · recommandé sur config confortable Meilleur score global et posture RAG la plus rigoureuse. Demande une vérification visuelle du Markdown produit. Sur config réduite, le temps de réponse peut devenir pénalisant en fin de session.

Voir la page Protocole de test pour le détail complet du protocole appliqué.