Synthèse comparative · Programme de Français FWB · 4 modèles testés

Analyse croisée des résultats RAG sur le programme officiel de Français de la FWB · Ollama + AnythingLLM · Protocole N0 / N1 / N2 · 4 configurations matérielles

Contexte de la série

Quatre modèles ont été soumis au même corpus pédagogique : le programme officiel de Français du secondaire FWB, avec le même protocole de six questions couvrant Compétences de cycle, Approche en lecture, pièges anti-hallucination et différenciation pédagogique. Chaque modèle a été testé sur trois niveaux de préparation documentaire : N0 (PDF brut), N1 (TXT converti) et N2 (Markdown structuré). Les configurations matérielles varient selon les contraintes de chaque modèle.

Modèles testés
4
Ministral 3B · 8B · 14B · phi4-mini 3.8B
Questions par test
6
dont 1 piège anti-hallucination
Niveaux documentaires
3
N0 PDF · N1 TXT · N2 Markdown
Réponses évaluées
72
6 questions × 3 niveaux × 4 modèles
Classement général · score N2 (meilleur niveau)
#1
Ministral 3 8B
Serveur IA Light · RTX 3050 · 8 Go VRAM
N0
4,17
N1
4,17
N2
4,67
Best 4,67
Tok/s 16–18
Meilleur score
#2
Ministral 3 14B
Serveur IA · RX 9060 XT · 16 Go VRAM
N0
3,67
N1
3,17 ↓
N2
4,00
Best 4,00
Tok/s 30–31
Régression N1
#3
Ministral 3 3B
PC portable · GTX 1650 · 4 Go VRAM
N0
3,17
N1
3,50
N2
3,83
Best 3,83
Tok/s 16–17
Config légère
#4
phi4-mini 3.8B
PC portable · GTX 1650 · 4 Go VRAM
N0
2,17
N1
2,33
N2
2,50
Best 2,50
Tok/s 16–17
Insuffisant
Comparaison question par question · niveau N2

Le niveau N2 (Markdown) est retenu comme base de comparaison, car il représente les conditions optimales de chaque modèle. Les scores en gras indiquent le meilleur résultat par question.

Question 3B 8B 14B phi4
Q1 · Compétences de cycle 3/5 3/5 3/5 2/5
Q2 · Objectif du programme 5/5 5/5 5/5 4/5
Q3 · Approche en lecture 3/5 5/5 4/5 2/5
Q4 · Piège culturel 4/5 5/5 3/5 1/5
Q5 · Piège anti-hallucination 5/5 5/5 4/5 2/5
Q6 · Différenciation pédagogique 4/5 5/5 5/5 4/5
Moyenne N2 3,83 4,67 4,00 2,50
Signal transversal · Q1 · plafond structurel partagé

Tous les modèles plafonnent à 3/5 sur Q1, qui porte sur des compétences de cycle non explicitées dans le document source. Ce n’est pas un échec RAG : le corpus ne contient simplement pas la réponse attendue. Les modèles le signalent, mais avec plus ou moins de précision selon leur taille. Ce plafond est un signal pour la préparation du corpus, un enrichissement documentaire (ajout de textes complémentaires sur les cycles) pourrait le lever.

Signal transversal · Q2 · consensus fort sur les objectifs du programme

Trois modèles sur quatre atteignent 5/5 sur Q2 en N2, et phi4-mini atteint 4/5. La formule centrale du programme est bien indexée et restituée fidèlement par tous les modèles dès que le corpus est structuré en Markdown. C’est la question la plus discriminante pour mesurer l’impact réel de la préparation N2.

Analyse · la régression N1 du Ministral 3 14B
Anomalie documentée : N1 inférieur à N0 sur deux questions clés
Question Score N0 Score N1 Score N2 Variation N0→N1
Q1 · Compétences de cycle 3/5 2/5 3/5 − 1 point
Q2 · Objectif du programme 4/5 3/5 5/5 − 1 point
Q3 · Approche en lecture 4/5 4/5 4/5 stable
Q4 · Piège culturel 3/5 3/5 3/5 stable
Q5 · Anti-hallucination 5/5 4/5 4/5 − 1 point
Q6 · Différenciation 3/5 3/5 5/5 stable
Ce qui s’est passé

La conversion du PDF officiel FWB vers TXT a produit un fichier fragmenté : les tableaux et listes structurés du programme ont été aplatis en blocs de texte linéaire sans séparateurs clairs. Pour un modèle de 14B dont le contexte d’attention est plus large qu’un 3B ou 8B, cette densité sans structure produit un effet inverse : le modèle cherche des connexions dans un flux continu et perd les ancrages documentaires précis qu’il exploite très bien en N0 et N2.

Pourquoi le 8B n’est pas affecté

Le Ministral 3 8B produit des scores N0/N1 identiques (4,17) sur le même corpus. Les modèles plus petits sont moins sensibles à la fragmentation structurelle car ils opèrent sur des fenêtres de contexte plus courtes et traitent les chunks de manière plus indépendante. Le 14B, en cherchant à agréger davantage de contexte, amplifie les défauts de structure introduits par la conversion TXT.

La régression N1 n’est pas un signe de faiblesse du modèle : elle indique au contraire qu’il est plus exigeant sur la qualité structurelle du corpus. Le score N2 à 4,00 avec deux 5/5 confirme que le potentiel est intact dès que la préparation documentaire est au niveau. Recommandation pratique : pour les modèles 14B et plus, éviter la conversion TXT basique sur des documents officiels à structure complexe. Passer directement de N0 à N2, ou utiliser un outil de conversion qui préserve les titres, listes et tableaux.

Focus · comportement anti-hallucination comparé

Q4 et Q5 sont les deux questions pièges du protocole. Q4 porte sur un concept scolaire spécifique au contexte FWB (absent du corpus d’entraînement des modèles). Q5 demande des données chiffrées absentes du document. La gestion de ces deux questions est le marqueur de fiabilité le plus discriminant de la série.

Modèle Q4 N0 Q4 N2 Q5 N0 Q5 N2 Comportement observé
Ministral 3 8B 5/5 5/5 5/5 5/5 Constat d’absence propre sur tous les niveaux · aucune fabrication
Ministral 3 14B 3/5 3/5 5/5 4/5 Lacune culturelle persistante · mais aucune dérive sémantique · gestion du doute solide
Ministral 3 3B 3/5 4/5 1/5 5/5 N0 : invente un tableau chiffré · N2 : refuse proprement · progression spectaculaire
phi4-mini 3.8B 1/5 1/5 3/5 2/5 Dérive sémantique forte en N1 · hallucination douce systématique · non corrigé par N2
Le cas phi4-mini · une hallucination de type différent

Sur Q4, phi4-mini n’identifie pas le terme pédagogique local et produit des réponses hors sujet présentées avec assurance, en N1, il a interprété le terme comme une technique liée au sommeil et développé trois paragraphes entiers dans cette direction. Ce comportement est qualitativement différent des autres modèles : là où un 8B ou 14B constate l’absence et s’arrête, phi4-mini comble le vide avec du contenu plausible non documenté. Sur un corpus officiel destiné à des professionnels de l’éducation, ce comportement est disqualifiant sans supervision constante.

Le cas Ministral 3 3B · la préparation documentaire comme antidote

La progression 1/5 → 4/5 → 5/5 sur Q5 est le signal le plus fort de toute la série : un modèle qui hallucine librement en N0 devient rigoureux en N2 sur la même question. Ce n’est pas une amélioration marginale, c’est un changement de comportement fondamental. Argument décisif pour investir dans la préparation du corpus, même sur des configurations matérielles modestes.

Enseignements transversaux
La taille ne suffit pas : la VRAM et la préparation comptent autant

Le 14B sous-performe le 8B en N0 et N1 sur ce corpus. La taille du modèle est un facteur parmi d’autres : la qualité de la préparation documentaire et l’adéquation entre fenêtre de contexte et structure du corpus jouent un rôle au moins aussi déterminant.

N2 améliore tous les modèles, mais pas de la même façon

Le gain N0→N2 est de +0,50 pour le 8B, +0,33 pour le 14B, +0,66 pour le 3B, et seulement +0,33 pour phi4-mini. Les modèles faibles progressent en valeur relative, mais restent en dessous du seuil d’usage professionnel. La préparation documentaire ne peut pas compenser une capacité de raisonnement insuffisante.

N1 n’est pas universellement sûr

La conversion TXT basique peut fragmenter les documents à structure complexe et dégrader les résultats, en particulier sur les grands modèles. N1 reste pertinent sur des documents linéaires et peu structurés. Sur des programmes officiels avec tableaux et listes hiérarchiques, passer directement à N2 est plus fiable.

16 Go VRAM : seuil recommandé pour les modèles 14B en RAG

Le Serveur IA avec RX 9060 XT 16 Go est la seule configuration testée capable de charger le 14B entièrement en VRAM à 30–31 tok/s constants. En dessous, le modèle dépasse la VRAM disponible et bascule en inférence CPU/RAM, avec une dégradation importante des temps de réponse.

Les lacunes culturelles locales sont irréductibles par le RAG

Q4 met en évidence une limite structurelle : les modèles entraînés sur des corpus internationaux ne connaissent pas les spécificités du système scolaire FWB. Aucune préparation documentaire ne peut corriger ce type de lacune, elle relève du corpus d’entraînement du modèle, pas de l’indexation RAG.

Le 8B est le meilleur rapport qualité/configuration de la série

4,67/5 en N2 sur une RTX 3050 8 Go à 16–18 tok/s. Configuration accessible, résultats professionnels en N2. Pour un déploiement RAG sur corpus pédagogique FWB, c’est le modèle de référence de cette série tant qu’un modèle plus grand n’est pas testé dans des conditions équivalentes.

Profils d’usage recommandés · corpus Français FWB
🏫
Usage en établissement scolaire
Corpus officiel, consultation régulière
Ministral 3 8B · N2
Meilleur score de la série, comportement anti-hallucination exemplaire, configuration accessible avec une RTX 3050. Supervision humaine maintenue sur les questions de type Q1 (compétences de cycle non détaillées dans le document).
★★★★★ Recommandé · N2
💻
Configuration légère (PC portable)
4 Go VRAM, usage nomade
Ministral 3 3B · N1 ou N2
Le seul modèle viable sur config 4 Go VRAM avec des résultats acceptables. N1 offre le meilleur compromis temps/qualité sur cette configuration. N2 est envisageable pour des sessions courtes, mais la dégradation en fin de session est à anticiper.
★★★★★ Recommandé · N1
🖥️
Serveur partagé multi-utilisateurs
16 Go VRAM, accès concurrent
Ministral 3 14B · N2 uniquement
La vitesse de 30–31 tok/s constants sur RX 9060 XT est un avantage réel en contexte partagé. Potentiel documentaire confirmé en N2 (deux 5/5, aucune hallucination). Éviter N1 sur ce corpus : passer directement de N0 à N2 pour contourner les effets de fragmentation.
★★★★☆ Pertinent · N2 seulement
⚠️
phi4-mini 3.8B
Tous contextes confondus
Non recommandé sur ce corpus
2,50/5 en N2. Les lacunes de représentation culturelle locale et la tendance à l’hallucination douce le rendent inadapté à un usage sur des documents officiels complexes. Sa rapidité est son seul avantage réel, insuffisant pour justifier les risques sur ce type de corpus.
★★☆☆☆ Non adapté · corpus FWB
Verdicts globaux de la série
★★★★★
Ministral 3 8B · N2 · Très pertinent – référence de la série 4,67/5 · Quatre 5/5 · aucune hallucination sur 18 réponses · comportement anti-hallucination exemplaire sur les deux questions pièges · meilleur rapport qualité/configuration testé à ce jour sur ce corpus. Usage professionnel accompagné envisageable en N2 avec supervision maintenue sur les questions sans réponse dans le document.
★★★★☆
Ministral 3 14B · N2 · Pertinent – potentiel confirmé, N1 à éviter 4,00/5 en N2 · deux 5/5 · aucune hallucination · vitesse la plus élevée de la série (30–31 tok/s). Potentiel documentaire réel en N2, mais régression N1 documentée sur ce corpus. Recommandé uniquement en N2 sur configuration 16 Go VRAM. À retester sur un corpus mieux converti en N1 pour lever l’ambiguïté.
★★★★☆
Ministral 3 3B · N1/N2 · Pertinent – seul choix viable sur config légère 3,83/5 en N2 · progression anti-hallucination remarquable (1/5→5/5 sur Q5) · N1 recommandé comme meilleur compromis sur PC portable 4 Go VRAM. Résultats inférieurs aux modèles de la gamme supérieure, mais cohérents avec les contraintes matérielles. Supervision indispensable.
★★☆☆☆
phi4-mini 3.8B · tous niveaux – Non adapté à ce corpus 2,50/5 en N2 · hallucination douce systématique · lacunes culturelles locales irréductibles · aucun niveau de préparation documentaire ne corrige les comportements problématiques observés. Peut convenir pour des questions procédurales simples sur des documents très structurés, hors corpus institutionnel complexe.
Périmètre de cette synthèse

Ces résultats sont valables sur le corpus testé : le programme officiel de Français FWB du secondaire, avec la stack Ollama + AnythingLLM et le protocole de six questions défini par le IA LAB. Les performances peuvent varier significativement sur d’autres corpus, d’autres stacks ou d’autres types de questions. Un test sur le corpus de Mathématiques FWB est prévu pour élargir le champ de comparaison.

Voir la page Protocole de test pour le détail complet du protocole appliqué · Résultats individuels : Ministral 3 3B · Ministral 3 8B · Ministral 3 14B · phi4-mini 3.8B