Les tests en logopédie : de leur utilité et de leurs limites …

Une interview du Professeur Jacques Grégoire, spécialiste en psychométrie,

Université catholique de Louvain

 

Article paru dans les Cahiers de la SBLU (2003), n°13, 33-36.

 

Outils quotidiens dans la clinique logopédique, éléments indispensables du diagnostic, les tests ne reçoivent peut-être pas toujours l’attention qu’ils méritent ; c’est pourquoi nous avons voulu pallier cette « négligence » en interviewant pour vous Jacques Grégoire, Professeur à l’Université catholique de Louvain et spécialiste bien connu des problèmes psychométriques (cf. Un de nos précédents Cahiers), en lui posant la question suivante : « Quelles sont les qualités d’un bon test ? Autrement dit, quand peut-on faire confiance aux scores observés à un test et quand faut-il s’en méfier ? ». Ci-dessous, nous vous présentons le compte-rendu de l’échange avec le Prof. J. Grégoire sur cette épineuse question …

 

Quelques remarques préalables

Avant toute chose, il est important de souligner que le test parfait n’existe pas ; il est matériellement impossible de créer un outil irréprochable quant au matériel utilisé, aux normes récoltées, à la procédure de passation, de correction, etc. Tout test présente des limites. L’important pour le concepteur est de les réduire au minimum et pour son utilisateur d’en être conscient.

Une conséquence importante de cet état de fait est que le test, s’il est un outil indispensable au diagnostic, n’en est néanmoins pas suffisant. Les résultats observés au test doivent être complétés par d’autres sources d’informations, par exemple des observations cliniques, des informations récoltées auprès de l’entourage, des autres intervenants. D’ailleurs, les classifications internationales comme le DSM-IV ou l’ICD-10 définissent l’état pathologique à l’aide de deux critères : (1) un score significativement inférieur à la moyenne du groupe de référence à des tests et (2) des difficultés d’adaptabilité de l’individu aux exigences du milieu dans lequel il évolue. C’est la combinaison de ces deux critères qui permettra de dire si un comportement, une performance est pathologique ou non.

Par ailleurs, sachant qu’un test est par nature imparfait, il sera également prudent dans certains cas de recouper les informations récoltées à un test par la passation d’un ou de plusieurs autres tests. Si l’on doute de la sensibilité de l’outil utilisé pour la situation, si les scores obtenus dénotent par rapport à l’ensemble des résultats observés ou par rapport à la plainte, on veillera à recueillir d’autres informations avant de conclure à la présence ou l’absence d’un état pathologique. On sera enfin tout particulièrement prudents dans les zones définies comme « seuil pathologique ».

 

Les fondements théoriques

 

Un test destiné à évaluer une performance cognitive doit être basé sur un modèle théorique du fonctionnement cognitif sous-jacent à la performance testée. Ainsi par exemple, un test évaluant l’accès au lexique mental doit avoir été construit en tenant compte des connaissances théoriques sur les représentations et les mécanismes impliqués dans l’accès lexical. Ce modèle doit être présenté et justifié dans le manuel de présentation du test et le clinicien qui utilise le test doit avoir les connaissances théoriques lui permettant de maîtriser le modèle ; il doit également prendre connaissance de la présentation du modèle dans le manuel.

 

Toutefois, de nombreux tests utilisés en logopédie ne sont pas basés sur un modèle théorique mais permettent simplement d’estimer le niveau scolaire de l’enfant dans tel ou tel domaine (ex. NBNO). Ces tests – qui sont en fait destinés aux psychologues scolaires- reposent sur le programme scolaire. L’interprétation des performances à ces tests est donc limitée à l’évaluation du niveau scolaire de l’enfant par rapport à un programme scolaire donné.

 

Les épreuves et les scores

 

Le choix des épreuves proposées dans le test doit être justifié par rapport au modèle théorique de référence (ex. épreuves de lecture et de dictée de pseudo-mots pour tester la voie d’assemblage) pour que les performances puissent être interprétées. En effet, les scores ne sont pas des mesures directes ; il y a tout un travail d’interprétation à faire pour identifier les facteurs sous-jacents expliquant les scores (ex. certaines erreurs en compréhension de texte peuvent être dues à un déficit du vocabulaire). Ce travail d’interprétation est capital : un test n’est en effet pas valide dans l’absolu, ce sont les inférences que l’on fait à partir des scores obtenus qui sont valides ou non (ex. conclure à l’existence d’un déficit en métaphonologie sur base de performances déficitaires à des épreuves de suppression et d’inversion de phonèmes alors que l’enfant n’a pas compris les consignes = inférence non valide).

 

Il faut souligner que les épreuves d’un test doivent surtout mesurer ce qu’elles sont supposées mesurer et pas trop autre chose. S’il est inutile d’espérer disposer un jour de tests parfaits, il est également inutile de supposer que les épreuves d’un test peuvent être des mesures « pures » de ce qu’elles sont supposées évaluer (ex. intervention de facteurs visuo-spatiaux dans les tests d’intelligence non verbale).

 

La précision de la mesure sera fonction notamment de la rigueur de la standardisation. Ainsi, la marge d’erreur – il y en a toujours une – sera fonction des consignes de passation et des règles de cotation. Si les consignes de passation ne sont pas suffisamment précises, elles laissent place à l’interprétation personnelle du testeur ou du testé. Si les règles de cotation sont incomplètes, la correction variera d’un clinicien à l’autre. Une certaine marge d’erreur est inévitable mais elle ne doit néanmoins pas être trop élevée ; dans ce cas, le risque de se tromper en concluant qu’une performance est pathologique est également très élevé (ex. le testeur a corrigé de manière trop strict par rapport à ce qui a été fait pour les normes ; le patient a compris les consignes d’une manière différente de celle des sujets de l’échantillon). Si la marge d’erreur est trop élevée, on ne pourra pas non plus conclure dans une situation de test-retest à une différence significative puisque cette différence pourrait très bien venir non d’une amélioration suite au traitement mais d’une variation non contrôlée des performances (ex. lors du retest, il y a plus d’un cas de cotation imprécise où la décision qui est prise par le clinicien se fait « en faveur » du patient).

 

Les normes

 

L’utilité d’un test vient aussi du fait qu’il ait été bien normé, i.e. que les sujets utilisés pour récolter des normes aient été choisis selon des critères précis et en nombre suffisant. Il faut par ailleurs que le manuel donne le maximum d’informations sur les caractéristiques de la population. Étant donné qu’une performance est pathologique si elle est significativement inférieure à la moyenne du groupe de référence, il faut avoir à sa disposition toutes les informations sur ce groupe (ex. âge, moment de la récolte des normes, langue maternelle, type de pédagogie, etc.).

 

Il n’est pas facile de lister les critères qui permettent de savoir si un test est bien normé ou non. Il n’y a pas de réponse dans l’absolu à cette question ; il faut regarder au cas par cas. Toutefois, un certain nombre de remarques générales peuvent être formulées :

 

Ainsi par exemple, le nombre de sujets testés pour les normes sera fonction de la mesure prise. Si celle-ci varie beaucoup (comme c’est souvent le cas dans le domaine du développement), il faudra beaucoup plus de sujets. Un examen de la variance des scores permettra de voir si on a affaire à une mesure peu ou très variable (NDLR : si la variance est très faible, il faut suspecter un effet plancher ou plafond et donc une mesure peu sensible).

Le découpage des normes en catégorie d’âge est également critique : des périodes où les performances changent vite ne doivent pas être regroupées (ex. développement lexical entre 2 et 4 ans).

Les groupes pathologiques ne doivent pas être inclus (à moins qu’on ne veuille des normes représentatives de toute la population, comme pour le QI par ex.). De même, on n’inclura pas non plus les sujets présentant des caractéristiques susceptibles d’influencer de manière non contrôlée les performances (ex. sujets de langue maternelle différente). La représentativité des normes va donc varier selon les critères de sélection des sujets et la moyenne (+ écart-type) va augmenter ou diminuer selon que l’on ait été plus ou moins strict dans les critères de sélection (si les enfants pathologiques sont inclus, la moyenne est décalée vers la gauche et la variance augmente). On sera donc particulièrement prudent si le patient testé présente des caractéristiques qui le différencie de manière importante des sujets de l’échantillon de référence (ex. enfant bilingue, sous médicament) ou si les conditions de passation ne sont pas les mêmes que celles dans lesquelles les normes ont été récoltées.

 

Le vieillissement des normes : les normes ne sont pas éternelles ; les caractéristiques cognitives des populations changent de même que les pratiques scolaires. On a ainsi remarqué, en renormant les échelles d’intelligence avec les mêmes procédures d’échantillonnage, que le QI moyen avait augmenté. Concernant les tests mesurant des aptitudes scolaires (lecture, orthographe, calcul), il ne faut pas perdre de vue que les programmes changent de même que la quantité d’heures consacrées à la pratique d’une activité et les exigences de réussite. Une ancienneté de 10 ans est en général la limite maximale acceptable : un test dont les normes ont plus de dix ans est un test dont il faut se méfier ; il risque soit de surévaluer le patient, soit de conduire à conclure que le patient a des performances pathologiques alors que ce n’est pas le cas.

 

Malgré leurs limites, les tests sont un élément indispensable du diagnostic. On se gardera bien de conclure hâtivement « si on ne peut leur faire une confiance totale, autant ne pas les utiliser » ; en effet, baser le diagnostic sur la seule observation et intuition, c’est laisser la porte ouverte à la subjectivité, à nos stéréotypes sociaux et nos a priori et donc augmenter considérablement le risque d’erreur diagnostique. Recouper des informations en provenance de différentes sources et bien connaître les outils que l’on emploie sont les seules solutions pour minimiser ce risque d’erreur.

 

Pour plus d’informations : « Guideline for test use » (http://www.intestcom.org)

 

Marie-Anne SCHELSTRAETE