Synthèse comparative · Programme de Français FWB · 4 modèles testés
Analyse croisée des résultats RAG sur le programme officiel de Français de la FWB · Ollama + AnythingLLM · Protocole N0 / N1 / N2 · 4 configurations matérielles
Quatre modèles ont été soumis au même corpus pédagogique : le programme officiel de Français du secondaire FWB, avec le même protocole de six questions couvrant Compétences de cycle, Approche en lecture, pièges anti-hallucination et différenciation pédagogique. Chaque modèle a été testé sur trois niveaux de préparation documentaire : N0 (PDF brut), N1 (TXT converti) et N2 (Markdown structuré). Les configurations matérielles varient selon les contraintes de chaque modèle.
Le niveau N2 (Markdown) est retenu comme base de comparaison, car il représente les conditions optimales de chaque modèle. Les scores en gras indiquent le meilleur résultat par question.
| Question | 3B | 8B | 14B | phi4 |
|---|---|---|---|---|
| Q1 · Compétences de cycle | 3/5 | 3/5 | 3/5 | 2/5 |
| Q2 · Objectif du programme | 5/5 | 5/5 | 5/5 | 4/5 |
| Q3 · Approche en lecture | 3/5 | 5/5 | 4/5 | 2/5 |
| Q4 · Piège culturel | 4/5 | 5/5 | 3/5 | 1/5 |
| Q5 · Piège anti-hallucination | 5/5 | 5/5 | 4/5 | 2/5 |
| Q6 · Différenciation pédagogique | 4/5 | 5/5 | 5/5 | 4/5 |
| Moyenne N2 | 3,83 | 4,67 | 4,00 | 2,50 |
Tous les modèles plafonnent à 3/5 sur Q1, qui porte sur des compétences de cycle non explicitées dans le document source. Ce n’est pas un échec RAG : le corpus ne contient simplement pas la réponse attendue. Les modèles le signalent, mais avec plus ou moins de précision selon leur taille. Ce plafond est un signal pour la préparation du corpus, un enrichissement documentaire (ajout de textes complémentaires sur les cycles) pourrait le lever.
Trois modèles sur quatre atteignent 5/5 sur Q2 en N2, et phi4-mini atteint 4/5. La formule centrale du programme est bien indexée et restituée fidèlement par tous les modèles dès que le corpus est structuré en Markdown. C’est la question la plus discriminante pour mesurer l’impact réel de la préparation N2.
| Question | Score N0 | Score N1 | Score N2 | Variation N0→N1 |
|---|---|---|---|---|
| Q1 · Compétences de cycle | 3/5 | 2/5 | 3/5 | − 1 point |
| Q2 · Objectif du programme | 4/5 | 3/5 | 5/5 | − 1 point |
| Q3 · Approche en lecture | 4/5 | 4/5 | 4/5 | stable |
| Q4 · Piège culturel | 3/5 | 3/5 | 3/5 | stable |
| Q5 · Anti-hallucination | 5/5 | 4/5 | 4/5 | − 1 point |
| Q6 · Différenciation | 3/5 | 3/5 | 5/5 | stable |
La conversion du PDF officiel FWB vers TXT a produit un fichier fragmenté : les tableaux et listes structurés du programme ont été aplatis en blocs de texte linéaire sans séparateurs clairs. Pour un modèle de 14B dont le contexte d’attention est plus large qu’un 3B ou 8B, cette densité sans structure produit un effet inverse : le modèle cherche des connexions dans un flux continu et perd les ancrages documentaires précis qu’il exploite très bien en N0 et N2.
Le Ministral 3 8B produit des scores N0/N1 identiques (4,17) sur le même corpus. Les modèles plus petits sont moins sensibles à la fragmentation structurelle car ils opèrent sur des fenêtres de contexte plus courtes et traitent les chunks de manière plus indépendante. Le 14B, en cherchant à agréger davantage de contexte, amplifie les défauts de structure introduits par la conversion TXT.
La régression N1 n’est pas un signe de faiblesse du modèle : elle indique au contraire qu’il est plus exigeant sur la qualité structurelle du corpus. Le score N2 à 4,00 avec deux 5/5 confirme que le potentiel est intact dès que la préparation documentaire est au niveau. Recommandation pratique : pour les modèles 14B et plus, éviter la conversion TXT basique sur des documents officiels à structure complexe. Passer directement de N0 à N2, ou utiliser un outil de conversion qui préserve les titres, listes et tableaux.
Q4 et Q5 sont les deux questions pièges du protocole. Q4 porte sur un concept scolaire spécifique au contexte FWB (absent du corpus d’entraînement des modèles). Q5 demande des données chiffrées absentes du document. La gestion de ces deux questions est le marqueur de fiabilité le plus discriminant de la série.
| Modèle | Q4 N0 | Q4 N2 | Q5 N0 | Q5 N2 | Comportement observé |
|---|---|---|---|---|---|
| Ministral 3 8B | 5/5 | 5/5 | 5/5 | 5/5 | Constat d’absence propre sur tous les niveaux · aucune fabrication |
| Ministral 3 14B | 3/5 | 3/5 | 5/5 | 4/5 | Lacune culturelle persistante · mais aucune dérive sémantique · gestion du doute solide |
| Ministral 3 3B | 3/5 | 4/5 | 1/5 | 5/5 | N0 : invente un tableau chiffré · N2 : refuse proprement · progression spectaculaire |
| phi4-mini 3.8B | 1/5 | 1/5 | 3/5 | 2/5 | Dérive sémantique forte en N1 · hallucination douce systématique · non corrigé par N2 |
Sur Q4, phi4-mini n’identifie pas le terme pédagogique local et produit des réponses hors sujet présentées avec assurance, en N1, il a interprété le terme comme une technique liée au sommeil et développé trois paragraphes entiers dans cette direction. Ce comportement est qualitativement différent des autres modèles : là où un 8B ou 14B constate l’absence et s’arrête, phi4-mini comble le vide avec du contenu plausible non documenté. Sur un corpus officiel destiné à des professionnels de l’éducation, ce comportement est disqualifiant sans supervision constante.
La progression 1/5 → 4/5 → 5/5 sur Q5 est le signal le plus fort de toute la série : un modèle qui hallucine librement en N0 devient rigoureux en N2 sur la même question. Ce n’est pas une amélioration marginale, c’est un changement de comportement fondamental. Argument décisif pour investir dans la préparation du corpus, même sur des configurations matérielles modestes.
Le 14B sous-performe le 8B en N0 et N1 sur ce corpus. La taille du modèle est un facteur parmi d’autres : la qualité de la préparation documentaire et l’adéquation entre fenêtre de contexte et structure du corpus jouent un rôle au moins aussi déterminant.
Le gain N0→N2 est de +0,50 pour le 8B, +0,33 pour le 14B, +0,66 pour le 3B, et seulement +0,33 pour phi4-mini. Les modèles faibles progressent en valeur relative, mais restent en dessous du seuil d’usage professionnel. La préparation documentaire ne peut pas compenser une capacité de raisonnement insuffisante.
La conversion TXT basique peut fragmenter les documents à structure complexe et dégrader les résultats, en particulier sur les grands modèles. N1 reste pertinent sur des documents linéaires et peu structurés. Sur des programmes officiels avec tableaux et listes hiérarchiques, passer directement à N2 est plus fiable.
Le Serveur IA avec RX 9060 XT 16 Go est la seule configuration testée capable de charger le 14B entièrement en VRAM à 30–31 tok/s constants. En dessous, le modèle dépasse la VRAM disponible et bascule en inférence CPU/RAM, avec une dégradation importante des temps de réponse.
Q4 met en évidence une limite structurelle : les modèles entraînés sur des corpus internationaux ne connaissent pas les spécificités du système scolaire FWB. Aucune préparation documentaire ne peut corriger ce type de lacune, elle relève du corpus d’entraînement du modèle, pas de l’indexation RAG.
4,67/5 en N2 sur une RTX 3050 8 Go à 16–18 tok/s. Configuration accessible, résultats professionnels en N2. Pour un déploiement RAG sur corpus pédagogique FWB, c’est le modèle de référence de cette série tant qu’un modèle plus grand n’est pas testé dans des conditions équivalentes.
Ces résultats sont valables sur le corpus testé : le programme officiel de Français FWB du secondaire, avec la stack Ollama + AnythingLLM et le protocole de six questions défini par le IA LAB. Les performances peuvent varier significativement sur d’autres corpus, d’autres stacks ou d’autres types de questions. Un test sur le corpus de Mathématiques FWB est prévu pour élargir le champ de comparaison.
Voir la page Protocole de test pour le détail complet du protocole appliqué · Résultats individuels : Ministral 3 3B · Ministral 3 8B · Ministral 3 14B · phi4-mini 3.8B