Test : Ministral 3 3B RAG - programme de Français FWB - IA Locale & Open Source en Belgique

Ministral 3 3B · Programme de Français officiel FWB · N0 / N1 / N2

Test RAG comparatif · Ollama + AnythingLLM · PC portable · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test

Modèle

Ministral 3 3B

Mistral AI · modèle léger · Q4_K_M

Score moyen N0

3,17 / 5

PDF brut

Score moyen N1

3,50 / 5

TXT converti

Score moyen N2

3,83 / 5

Markdown

Vitesse

~16–17 tok/s

Dégradation en fin de session

PC portable

CPU Ryzen 5 5600H

RAM 8 Go DDR5

GPU GTX 1650 · 4 Go VRAM

OS Debian 13

Résultats par question

Q	Type	N0	N1	N2	Observation
Q1	Compétences de cycle	3/5	3/5	3/5	Score stable · glissement vers d’autres niveaux scolaires sur les trois niveaux · limite du corpus
Q2	Objectif du programme	4/5	3/5	5/5	N1 régressif (chunk parasite) · N2 restitue la formule centrale avec localisation précise · seul 5/5
Q3	Approche en lecture	3/5	4/5	3/5	N1 meilleur (30s, 4/5) · N2 plus générique · la qualité du Markdown varie selon les sections
Q4	Piège culturel	3/5	3/5	4/5	N0 et N1 : exemples inventés présentés comme documentaires · N2 distingue clairement corpus/inférence
Q5	Piège anti-hallucination	1/5	4/5	5/5	Progression la plus forte du test · N0 invente un tableau de chiffres · N2 refuse proprement
Q6	Différenciation pédagogique	3/5	4/5	4/5	N0 génère des exemples inventés · N1 et N2 ancrés · N2 le plus documenté mais 86s
Moyenne		3,17	3,50	3,83	Progression linéaire N0→N2 · N1 meilleur compromis temps/qualité sur config réduite

Comportement notable · Q5 N0 · hallucination franche

Le modèle reconnaît l’absence d’information horaire dans le corpus, puis invente un tableau de chiffres présentés comme officiels en avouant lui-même les avoir générés hors corpus. C’est le comportement RAG le plus problématique du test : une hallucination annoncée mais quand même produite. La préparation N1 puis N2 élimine progressivement ce comportement.

Comportement notable · Q5 · progression 1→4→5

C’est le signal le plus fort de ce test : chaque niveau de préparation documentaire réduit significativement la tentation d’inventer des données absentes. N2 atteint la posture RAG idéale : identifier ce qui manque sans compenser par de l’invention. Argument décisif pour investir dans la préparation du corpus.

Comportement notable · aucun niveau universellement supérieur

N1 gagne Q3 (4/5 en 30s), N2 gagne Q2 et Q5 (5/5), N0 reste compétitif sur Q2 (4/5). La qualité du Markdown produit varie selon les sections du document source, certaines passent mieux en TXT qu’en Markdown. La préparation optimale dépend des questions prioritaires pour l’usage visé.

Enseignements

La progression sur Q5 est l’argument décisif

1/5 → 4/5 → 5/5 sur le piège anti-hallucination. Chaque niveau de préparation réduit la tentation d’inventer des données absentes. C’est la démonstration la plus claire de l’impact de la qualité documentaire.

N1 : meilleur compromis sur config réduite

Meilleur temps moyen (37s), dégradation en session la plus faible (-21%), et résistance à l’hallucination nettement améliorée. Accessible sans compétences techniques, une seule commande de conversion suffit.

La qualité du Markdown conditionne les gains N2

N2 gagne sur Q2 et Q5 mais régresse en Q3 par rapport à N1. Certaines sections du document source passent mieux en TXT qu’en Markdown selon l’outil utilisé. Vérification visuelle du fichier produit indispensable.

Config réduite : facteur limitant en fin de session

86 secondes sur Q6 en N2, dégradation du débit de -31% sur la session. La préparation documentaire améliore la qualité mais ne compense pas les contraintes matérielles. N2 est à réserver à une config plus puissante.

Verdicts par niveau de préparation

★★★☆☆

N0 · Limité · usage avec supervision uniquement Hallucine sur les données absentes du corpus et se dégrade fortement en fin de session. À réserver à une exploration rapide sans enjeu de fiabilité.

★★★★★

N1 · Très pertinent · recommandé sur config réduite Meilleur compromis qualité/temps/stabilité. Résistance à l’hallucination nettement améliorée. Dégradation en session la plus faible (-21%). Accessible sans compétences techniques particulières.

★★★★★

N2 · Très pertinent · recommandé sur config confortable Meilleur score global et posture RAG la plus rigoureuse. Demande une vérification visuelle du Markdown produit. Sur config réduite, le temps de réponse peut devenir pénalisant en fin de session.

Voir la page Protocole de test pour le détail complet du protocole appliqué.