Test : Ministral 3 14B RAG - programme de Français FWB - IA Locale & Open Source en Belgique

Ministral 3 14B · Programme de Français officiel FWB · N0 / N1 / N2

Test RAG comparatif · Ollama + AnythingLLM · Serveur IA · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test

Modèle

Ministral 3 14B

Mistral AI · ~9 Go · Q4_K_M

Score moyen N0

3,67 / 5

PDF brut

Score moyen N1

3,17 / 5

TXT converti

Score moyen N2

4,00 / 5

Markdown

Vitesse

~30–31 tok/s

Stable sur toute la session

Serveur IA

CPU Ryzen 5 9600X

RAM 32 Go

GPU RX 9060 XT · 16 Go VRAM

OS Linux Mint 22

Résultats par question

Q	Type	N0	N1	N2	Observation
Q1	Compétences de cycle	3/5	2/5	3/5	Régression N1 atypique · la conversion TXT semble avoir fragmenté le corpus · N2 corrige la trajectoire
Q2	Objectif du programme	4/5	3/5	5/5	Seul 5/5 sur Q2 · N2 restitue fidèlement la formule centrale du programme avec référence de page
Q3	Approche en lecture	4/5	4/5	4/5	Stabilité remarquable · ancré dans le corpus sur les trois niveaux · aucune méthode inventée
Q4	Piège culturel	3/5	3/5	3/5	Concept scolaire local non reconnu · mais aucune dérive sémantique · constat d’absence propre
Q5	Piège anti-hallucination	5/5	4/5	4/5	Meilleure gestion anti-hallucination de la série · aucun chiffre inventé · sources de redirection correctes
Q6	Différenciation pédagogique	3/5	3/5	5/5	Second 5/5 en N2 · nuances et mises en garde du programme restituées · absent des modèles plus petits
Moyenne		3,67	3,17	4,00	Meilleur score N2 de la série · vitesse stable ~30–31 tok/s sur toute la session

Comportement notable · Q2 · 5/5 en N2

La formule centrale du programme est restituée avec sa référence de page précise, sans paraphrase, sans approximation. C’est ce qu’on attend d’un système RAG professionnel : extraire et citer avec précision. Premier modèle de la série à atteindre ce niveau sur cette question.

Comportement notable · Q4 · même lacune, gestion différente

Comme les autres modèles testés, Ministral 3 14B ne reconnaît pas le terme désignant une matière scolaire spécifique au contexte local. Mais là où les modèles plus petits dérivent sémantiquement, celui-ci constate simplement l’absence d’information et s’arrête. La taille du modèle améliore la gestion du doute, pas la connaissance culturelle.

Signal à surveiller · régression N1 atypique

Sur Q1 et Q2, le niveau N1 (TXT converti) produit des réponses moins riches que N0 (PDF brut). Ce phénomène inverse est inhabituel dans notre protocole et suggère que la conversion TXT a fragmenté des sections clés du corpus. Une conversion alternative est recommandée avant de déployer N1 en production sur ce type de document.

Enseignements

16 Go VRAM : stabilité totale en session

Le modèle tient entièrement en mémoire GPU. Résultat : 30–31 tok/s constants sans dégradation progressive. Configuration minimale recommandée pour un modèle de cette taille en usage RAG sur corpus dense.

La qualité de conversion N1 conditionne les résultats

La régression N1 sur ce corpus invite à tester une conversion TXT alternative avant de conclure que ce niveau est insuffisant. Le potentiel du modèle reste intact, c’est la préparation du corpus qui est en cause.

N2 : deux 5/5, aucune hallucination

Premier modèle de la série à combiner citations précises avec références de page et aucune hallucination sur 18 réponses. Qualité documentaire nettement supérieure aux modèles 3–4B sur le même corpus.

Gestion du doute bien supérieure aux petits modèles

Sur les questions sans réponse dans le corpus, le modèle constate l’absence et s’arrête sans générer de contenu plausible non documenté. Comportement RAG plus fiable et plus sûr pour un usage professionnel.

Verdicts par niveau de préparation

★★★★☆

N0 · Pertinent · base documentaire solide dès le PDF brut 4,17/5 en moyenne. Le modèle s’appuie correctement sur le corpus sans fabrication et produit des réponses structurées dès le niveau brut. Supervision recommandée sur les questions à fort ancrage culturel local.

★★★★☆

N1 · Pertinent · parité avec N0 · pas de régression observée 4,17/5 en moyenne, identique au N0. La conversion TXT ne dégrade pas les résultats sur ce corpus, contrairement à ce qui a été observé sur d’autres modèles de la série. Usage avec supervision recommandé.

★★★★★

N2 · Très pertinent · usage professionnel accompagné envisageable 4,67/5 avec quatre 5/5 et aucune hallucination sur 18 réponses. Meilleur score 8B de la série. Un usage professionnel accompagné est envisageable sur ce corpus en N2. Supervision maintenue sur les questions sans réponse dans le document.

Voir la page Protocole de test pour le détail complet du protocole appliqué.