Ministral 3 8B · Programme de Français officiel FWB · N0 / N1 / N2

Test RAG comparatif · Ollama + AnythingLLM · Serveur IA Light · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test
Modèle
Ministral 3 8B
Mistral AI · ~5 Go · Q4_K_M
Score moyen N0
4,17 / 5
PDF brut
Score moyen N1
4,17 / 5
TXT converti
Score moyen N2
4,67 / 5
Markdown
Vitesse
~16,2 – 17,6 tok/s
Stable sur toute la session
Serveur IA Light
CPU Ryzen 5 3600
RAM 16 Go
GPU RTX 3050 · 8 Go VRAM
OS Linux Mint 22
Résultats par question
Q Type N0 N1 N2 Observation
Q1 Compétences de cycle 3/5 3/5 3/5 Information absente du corpus sur les trois niveaux · le modèle le signale honnêtement et s’enrichit progressivement en N1 et N2 avec des éléments contextuels pertinents
Q2 Objectif du programme 4/5 4/5 5/5 Progression nette N0 vers N2 · N2 restitue fidèlement la formule centrale du programme avec sa référence de section · meilleure réponse de la session
Q3 Approche en lecture 4/5 4/5 5/5 Réponse structurée et ancrée dans le corpus sur les trois niveaux · N2 intègre genres textuels, oral, différenciation et autonomie · aucune méthode inventée
Q4 Piège culturel 5/5 5/5 5/5 Comportement exemplaire sur les trois niveaux · absence d’information constatée sans dérive · connexions transversales proposées avec prudence · aucune fabrication
Q5 Piège anti-hallucination 5/5 5/5 5/5 Aucun chiffre inventé · redirection vers les sources officielles sur les trois niveaux · en N1 nuance pertinente sur la notion de période vs heure dans le secondaire FWB
Q6 Différenciation pédagogique 4/5 4/5 5/5 Réponse déjà très complète en N0 · N2 ajoute remédiation, consolidation, posture d’élève et mise en garde contre les stratégies contre-productives
Moyenne 4,17 4,17 4,67 Meilleurs scores de la série · progression N0/N1 vers N2 nette · vitesse stable entre 16 et 18 tok/s sur RTX 3050
Comportement notable · Q4 et Q5 · 5/5 sur les trois niveaux

Le modèle ne fabrique aucune information sur les deux questions pièges, quel que soit le niveau de préparation du corpus. En N1, il va même plus loin en distinguant la notion de période et d’heure dans le contexte FWB. C’est le comportement anti-hallucination le plus solide observé parmi les modèles testés sur ce corpus.

Comportement notable · Q2 et Q3 · progression N0 vers N2

Sur les deux questions les plus discriminantes du protocole, la qualité des réponses progresse clairement avec la préparation du corpus. En N2, le modèle cite les sections du programme avec précision et structure ses réponses autour des grands principes pédagogiques du référentiel. La conversion Markdown du corpus produit un gain mesurable et reproductible.

Point d’attention · temps de génération sur les longues réponses

Sur Q6, les temps de réponse atteignent 56 à 57 secondes sur les trois niveaux. Ce plafond s’explique par la densité des réponses générées et la limite de bande passante de la RTX 3050 à 8 Go VRAM. Le débit reste stable mais la génération de contenus longs est perceptiblement plus lente que sur les configurations avec plus de VRAM.

Enseignements
8 Go VRAM : suffisant pour un modèle 8B en usage RAG

Le modèle tient entièrement en mémoire GPU sur la RTX 3050. La vitesse se maintient entre 16 et 18 tok/s sur toute la session sans dégradation progressive. Configuration viable pour un déploiement RAG sur corpus dense en contexte associatif ou scolaire.

Longues réponses : plafond à surveiller

Les questions nécessitant une synthèse étendue atteignent 56 secondes de génération. Ce délai reste acceptable en usage monoposte mais pourrait devenir problématique en accès partagé multi-utilisateurs. Un modèle plus petit ou une limite de tokens de sortie peut corriger ce point.

N0 et N1 à parité : base solide dès le PDF brut

Contrairement aux modèles 3B testés précédemment, Ministral 3 8B produit des résultats équivalents en N0 et N1 sur ce corpus. La préparation TXT n’apporte pas de régression. Le gain de N2 est net et régulier sur toutes les questions.

Meilleurs scores 8B de la série sur ce corpus

Avec 4,17 en N0/N1 et 4,67 en N2, ce test établit les meilleures moyennes observées sur un modèle 8B dans le cadre du test sur le programme de Français FWB. La taille du modèle combinée à la VRAM dédiée produit un rapport qualité/vitesse cohérent pour un usage professionnel accompagné.

Verdicts par niveau de préparation
★★★★☆
N0 · Pertinent · base documentaire solide dès le PDF brut 4,17/5 en moyenne. Le modèle s’appuie correctement sur le corpus sans fabrication et produit des réponses structurées dès le niveau brut. Supervision recommandée sur les questions à fort ancrage culturel local.
★★★★☆
N1 · Pertinent · parité avec N0 · pas de régression observée 4,17/5 en moyenne, identique au N0. La conversion TXT ne dégrade pas les résultats sur ce corpus, contrairement à ce qui a été observé sur d’autres modèles de la série. Usage avec supervision recommandé.
★★★★★
N2 · Très pertinent · usage professionnel accompagné envisageable 4,67/5 avec quatre 5/5 et aucune hallucination sur 18 réponses. Meilleur score de la série. Un usage professionnel accompagné est envisageable sur ce corpus en N2. Supervision maintenue sur les questions sans réponse dans le document.

Voir la page Protocole de test pour le détail complet du protocole appliqué.