Les tests en logopédie : de leur utilité et de leurs limites Une interview du Professeur Jacques Grégoire, spécialiste en psychométrie,
Université catholique de Louvain
Article paru dans les Cahiers de la SBLU (2003), n°13, 33-36.
Outils quotidiens dans la clinique logopédique, éléments indispensables du diagnostic, les tests ne reçoivent peut-être pas toujours lattention quils méritent ; cest pourquoi nous avons voulu pallier cette « négligence » en interviewant pour vous Jacques Grégoire, Professeur à lUniversité catholique de Louvain et spécialiste bien connu des problèmes psychométriques (cf. Un de nos précédents Cahiers), en lui posant la question suivante : « Quelles sont les qualités dun bon test ? Autrement dit, quand peut-on faire confiance aux scores observés à un test et quand faut-il sen méfier ? ». Ci-dessous, nous vous présentons le compte-rendu de léchange avec le Prof. J. Grégoire sur cette épineuse question
Quelques remarques préalables
Avant toute chose, il est important de souligner que le test parfait nexiste pas ; il est matériellement impossible de créer un outil irréprochable quant au matériel utilisé, aux normes récoltées, à la procédure de passation, de correction, etc. Tout test présente des limites. Limportant pour le concepteur est de les réduire au minimum et pour son utilisateur den être conscient.
Une conséquence importante de cet état de fait est que le test, sil est un outil indispensable au diagnostic, nen est néanmoins pas suffisant. Les résultats observés au test doivent être complétés par dautres sources dinformations, par exemple des observations cliniques, des informations récoltées auprès de lentourage, des autres intervenants. Dailleurs, les classifications internationales comme le DSM-IV ou lICD-10 définissent létat pathologique à laide de deux critères : (1) un score significativement inférieur à la moyenne du groupe de référence à des tests et (2) des difficultés dadaptabilité de lindividu aux exigences du milieu dans lequel il évolue. Cest la combinaison de ces deux critères qui permettra de dire si un comportement, une performance est pathologique ou non.
Par ailleurs, sachant quun test est par nature imparfait, il sera également prudent dans certains cas de recouper les informations récoltées à un test par la passation dun ou de plusieurs autres tests. Si lon doute de la sensibilité de loutil utilisé pour la situation, si les scores obtenus dénotent par rapport à lensemble des résultats observés ou par rapport à la plainte, on veillera à recueillir dautres informations avant de conclure à la présence ou labsence dun état pathologique. On sera enfin tout particulièrement prudents dans les zones définies comme « seuil pathologique ».
Les fondements théoriques
Un test destiné à évaluer une performance cognitive doit être basé sur un modèle théorique du fonctionnement cognitif sous-jacent à la performance testée. Ainsi par exemple, un test évaluant laccès au lexique mental doit avoir été construit en tenant compte des connaissances théoriques sur les représentations et les mécanismes impliqués dans laccès lexical. Ce modèle doit être présenté et justifié dans le manuel de présentation du test et le clinicien qui utilise le test doit avoir les connaissances théoriques lui permettant de maîtriser le modèle ; il doit également prendre connaissance de la présentation du modèle dans le manuel.
Toutefois, de nombreux tests utilisés en logopédie ne sont pas basés sur un modèle théorique mais permettent simplement destimer le niveau scolaire de lenfant dans tel ou tel domaine (ex. NBNO). Ces tests qui sont en fait destinés aux psychologues scolaires- reposent sur le programme scolaire. Linterprétation des performances à ces tests est donc limitée à lévaluation du niveau scolaire de lenfant par rapport à un programme scolaire donné.
Les épreuves et les scores
Le choix des épreuves proposées dans le test doit être justifié par rapport au modèle théorique de référence (ex. épreuves de lecture et de dictée de pseudo-mots pour tester la voie dassemblage) pour que les performances puissent être interprétées. En effet, les scores ne sont pas des mesures directes ; il y a tout un travail dinterprétation à faire pour identifier les facteurs sous-jacents expliquant les scores (ex. certaines erreurs en compréhension de texte peuvent être dues à un déficit du vocabulaire). Ce travail dinterprétation est capital : un test nest en effet pas valide dans labsolu, ce sont les inférences que lon fait à partir des scores obtenus qui sont valides ou non (ex. conclure à lexistence dun déficit en métaphonologie sur base de performances déficitaires à des épreuves de suppression et dinversion de phonèmes alors que lenfant na pas compris les consignes = inférence non valide).
Il faut souligner que les épreuves dun test doivent surtout mesurer ce quelles sont supposées mesurer et pas trop autre chose. Sil est inutile despérer disposer un jour de tests parfaits, il est également inutile de supposer que les épreuves dun test peuvent être des mesures « pures » de ce quelles sont supposées évaluer (ex. intervention de facteurs visuo-spatiaux dans les tests dintelligence non verbale).
La précision de la mesure sera fonction notamment de la rigueur de la standardisation. Ainsi, la marge derreur il y en a toujours une sera fonction des consignes de passation et des règles de cotation. Si les consignes de passation ne sont pas suffisamment précises, elles laissent place à linterprétation personnelle du testeur ou du testé. Si les règles de cotation sont incomplètes, la correction variera dun clinicien à lautre. Une certaine marge derreur est inévitable mais elle ne doit néanmoins pas être trop élevée ; dans ce cas, le risque de se tromper en concluant quune performance est pathologique est également très élevé (ex. le testeur a corrigé de manière trop strict par rapport à ce qui a été fait pour les normes ; le patient a compris les consignes dune manière différente de celle des sujets de léchantillon). Si la marge derreur est trop élevée, on ne pourra pas non plus conclure dans une situation de test-retest à une différence significative puisque cette différence pourrait très bien venir non dune amélioration suite au traitement mais dune variation non contrôlée des performances (ex. lors du retest, il y a plus dun cas de cotation imprécise où la décision qui est prise par le clinicien se fait « en faveur » du patient).
Les normes
Lutilité dun test vient aussi du fait quil ait été bien normé, i.e. que les sujets utilisés pour récolter des normes aient été choisis selon des critères précis et en nombre suffisant. Il faut par ailleurs que le manuel donne le maximum dinformations sur les caractéristiques de la population. Étant donné quune performance est pathologique si elle est significativement inférieure à la moyenne du groupe de référence, il faut avoir à sa disposition toutes les informations sur ce groupe (ex. âge, moment de la récolte des normes, langue maternelle, type de pédagogie, etc.).
Il nest pas facile de lister les critères qui permettent de savoir si un test est bien normé ou non. Il ny a pas de réponse dans labsolu à cette question ; il faut regarder au cas par cas. Toutefois, un certain nombre de remarques générales peuvent être formulées :
Ainsi par exemple, le nombre de sujets testés pour les normes sera fonction de la mesure prise. Si celle-ci varie beaucoup (comme cest souvent le cas dans le domaine du développement), il faudra beaucoup plus de sujets. Un examen de la variance des scores permettra de voir si on a affaire à une mesure peu ou très variable (NDLR : si la variance est très faible, il faut suspecter un effet plancher ou plafond et donc une mesure peu sensible).
Le découpage des normes en catégorie dâge est également critique : des périodes où les performances changent vite ne doivent pas être regroupées (ex. développement lexical entre 2 et 4 ans).
Les groupes pathologiques ne doivent pas être inclus (à moins quon ne veuille des normes représentatives de toute la population, comme pour le QI par ex.). De même, on ninclura pas non plus les sujets présentant des caractéristiques susceptibles dinfluencer de manière non contrôlée les performances (ex. sujets de langue maternelle différente). La représentativité des normes va donc varier selon les critères de sélection des sujets et la moyenne (+ écart-type) va augmenter ou diminuer selon que lon ait été plus ou moins strict dans les critères de sélection (si les enfants pathologiques sont inclus, la moyenne est décalée vers la gauche et la variance augmente). On sera donc particulièrement prudent si le patient testé présente des caractéristiques qui le différencie de manière importante des sujets de léchantillon de référence (ex. enfant bilingue, sous médicament) ou si les conditions de passation ne sont pas les mêmes que celles dans lesquelles les normes ont été récoltées.
Le vieillissement des normes : les normes ne sont pas éternelles ; les caractéristiques cognitives des populations changent de même que les pratiques scolaires. On a ainsi remarqué, en renormant les échelles dintelligence avec les mêmes procédures déchantillonnage, que le QI moyen avait augmenté. Concernant les tests mesurant des aptitudes scolaires (lecture, orthographe, calcul), il ne faut pas perdre de vue que les programmes changent de même que la quantité dheures consacrées à la pratique dune activité et les exigences de réussite. Une ancienneté de 10 ans est en général la limite maximale acceptable : un test dont les normes ont plus de dix ans est un test dont il faut se méfier ; il risque soit de surévaluer le patient, soit de conduire à conclure que le patient a des performances pathologiques alors que ce nest pas le cas.
Malgré leurs limites, les tests sont un élément indispensable du diagnostic. On se gardera bien de conclure hâtivement « si on ne peut leur faire une confiance totale, autant ne pas les utiliser » ; en effet, baser le diagnostic sur la seule observation et intuition, cest laisser la porte ouverte à la subjectivité, à nos stéréotypes sociaux et nos a priori et donc augmenter considérablement le risque derreur diagnostique. Recouper des informations en provenance de différentes sources et bien connaître les outils que lon emploie sont les seules solutions pour minimiser ce risque derreur.
Pour plus dinformations : « Guideline for test use » (http://www.intestcom.org)
Marie-Anne SCHELSTRAETE