Phi4-mini 3.8B · Programme de Français officiel FWB · N0 / N1 / N2

Test RAG comparatif · Ollama + AnythingLLM · PC portable · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test
Modèle
phi4-mini 3.8B
Microsoft · 2,5 Go · Q4_K_M
Score moyen N0
2,17 / 5
PDF brut
Score moyen N1
2,33 / 5
TXT converti
Score moyen N2
2,50 / 5
Markdown
Vitesse
~16–17 tok/s
Stable sur toute la session
Machine de test
CPU Ryzen 5 5600H
RAM 8 Go
GPU GTX 1650 · 4 Go VRAM
OS Debian 13
Résultats par question
Q Type N0 N1 N2 Observation
Q1 Compétences de cycle 2/5 2/5 2/5 Esquive documentaire constante · aucune progression N0→N2
Q2 Objectif du programme 3/5 3/5 4/5 Seule progression nette · N2 restitue fidèlement les formules clés du programme
Q3 Approche en lecture 2/5 2/5 2/5 Génération de listes plausibles non documentées · hallucination douce
Q4 Piège culturel 1/5 1/5 1/5 Concept scolaire local non reconnu · dérive sémantique marquée en N1
Q5 Piège anti-hallucination 3/5 3/5 2/5 N0 et N1 corrects · N2 dérive hors contexte géographique et de niveau
Q6 Différenciation pédagogique 2/5 3/5 4/5 Progression linéaire · le corpus N2 améliore clairement les questions procédurales
Moyenne 2,17 2,33 2,50 Progression modeste · vitesse stable sur toute la session
Comportement notable · Q4 · piège culturel

En N1, le modèle a interprété un terme pédagogique spécifique au contexte local comme une technique liée au sommeil, produisant trois paragraphes entièrement hors sujet. Ce type de lacune ne peut pas être corrigé par la préparation du corpus : c’est une limite du modèle de base, pas du RAG.

Comportement notable · Q3 · hallucination douce

Plutôt que d’admettre l’absence d’information précise, le modèle produit des listes d’approches génériques qui semblent documentées sans l’être. Ce comportement est plus trompeur qu’un refus franc : un lecteur non averti peut confondre ces listes avec des extraits réels du programme. La supervision humaine reste indispensable.

Enseignements
La vitesse est le vrai atout

~16–17 tok/s constant là où des modèles plus grands chutent en fin de session. Pour un usage interactif, la fluidité est réelle — mais vitesse et fiabilité ne vont pas de pair.

Le corpus N2 aide sur le procédural

Q6 montre une progression 2→3→4/5 linéaire. La niche d’usage recommandée : questions de type « comment faire » bien ancrées dans un corpus riche et structuré.

Lacunes culturelles irréductibles

Certains concepts spécifiques au contexte local sont absents du corpus d’entraînement du modèle. Aucune préparation documentaire ne peut combler ce type de lacune.

Scores absolus bas sur corpus spécialisé

2,50/5 en moyenne N2. Pour un usage RAG sur des documents officiels complexes, des modèles plus grands obtiennent des résultats nettement supérieurs sur la même machine.

Verdicts par niveau de préparation
★★★☆☆
N0 · Limité · usage avec supervision uniquement Réponses rapides mais esquive documentaire fréquente. Acceptable pour une première orientation sur un document, insuffisant pour une exploitation fiable.
★★★☆☆
N1 · Limité · usage avec supervision uniquement Amélioration sur les questions procédurales, mais dégradation sur les référents culturels spécifiques. La meilleure préparation du corpus ne corrige pas les lacunes de représentation du modèle de base.
★★★★☆
N2 · Pertinent sous conditions Recommandé uniquement pour des questions procédurales et textuelles explicites, avec relecture systématique. Un corpus très dense peut déstabiliser le modèle sur son ancrage contextuel.

Voir la page Protocole de test pour le détail complet du protocole appliqué.