Test : Phi4-mini 3.8B RAG - programme de Français FWB - IA Locale & Open Source en Belgique

Phi4-mini 3.8B · Programme de Français officiel FWB · N0 / N1 / N2

Test RAG comparatif · Ollama + AnythingLLM · PC portable · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test

Modèle

phi4-mini 3.8B

Microsoft · 2,5 Go · Q4_K_M

Score moyen N0

2,17 / 5

PDF brut

Score moyen N1

2,33 / 5

TXT converti

Score moyen N2

2,50 / 5

Markdown

Vitesse

~16–17 tok/s

Stable sur toute la session

Machine de test

CPU Ryzen 5 5600H

RAM 8 Go

GPU GTX 1650 · 4 Go VRAM

OS Debian 13

Résultats par question

Q	Type	N0	N1	N2	Observation
Q1	Compétences de cycle	2/5	2/5	2/5	Esquive documentaire constante · aucune progression N0→N2
Q2	Objectif du programme	3/5	3/5	4/5	Seule progression nette · N2 restitue fidèlement les formules clés du programme
Q3	Approche en lecture	2/5	2/5	2/5	Génération de listes plausibles non documentées · hallucination douce
Q4	Piège culturel	1/5	1/5	1/5	Concept scolaire local non reconnu · dérive sémantique marquée en N1
Q5	Piège anti-hallucination	3/5	3/5	2/5	N0 et N1 corrects · N2 dérive hors contexte géographique et de niveau
Q6	Différenciation pédagogique	2/5	3/5	4/5	Progression linéaire · le corpus N2 améliore clairement les questions procédurales
Moyenne		2,17	2,33	2,50	Progression modeste · vitesse stable sur toute la session

Comportement notable · Q4 · piège culturel

En N1, le modèle a interprété un terme pédagogique spécifique au contexte local comme une technique liée au sommeil, produisant trois paragraphes entièrement hors sujet. Ce type de lacune ne peut pas être corrigé par la préparation du corpus : c’est une limite du modèle de base, pas du RAG.

Comportement notable · Q3 · hallucination douce

Plutôt que d’admettre l’absence d’information précise, le modèle produit des listes d’approches génériques qui semblent documentées sans l’être. Ce comportement est plus trompeur qu’un refus franc : un lecteur non averti peut confondre ces listes avec des extraits réels du programme. La supervision humaine reste indispensable.

Enseignements

La vitesse est le vrai atout

~16–17 tok/s constant là où des modèles plus grands chutent en fin de session. Pour un usage interactif, la fluidité est réelle — mais vitesse et fiabilité ne vont pas de pair.

Le corpus N2 aide sur le procédural

Q6 montre une progression 2→3→4/5 linéaire. La niche d’usage recommandée : questions de type « comment faire » bien ancrées dans un corpus riche et structuré.

Lacunes culturelles irréductibles

Certains concepts spécifiques au contexte local sont absents du corpus d’entraînement du modèle. Aucune préparation documentaire ne peut combler ce type de lacune.

Scores absolus bas sur corpus spécialisé

2,50/5 en moyenne N2. Pour un usage RAG sur des documents officiels complexes, des modèles plus grands obtiennent des résultats nettement supérieurs sur la même machine.

Verdicts par niveau de préparation

★★★☆☆

N0 · Limité · usage avec supervision uniquement Réponses rapides mais esquive documentaire fréquente. Acceptable pour une première orientation sur un document, insuffisant pour une exploitation fiable.

★★★☆☆

N1 · Limité · usage avec supervision uniquement Amélioration sur les questions procédurales, mais dégradation sur les référents culturels spécifiques. La meilleure préparation du corpus ne corrige pas les lacunes de représentation du modèle de base.

★★★★☆

N2 · Pertinent sous conditions Recommandé uniquement pour des questions procédurales et textuelles explicites, avec relecture systématique. Un corpus très dense peut déstabiliser le modèle sur son ancrage contextuel.

Voir la page Protocole de test pour le détail complet du protocole appliqué.