Les questionnaires à choix multiple : définitions et critiques#

Information

Index général
Auteurs : Philippe Dessus, Inspé & LaRAC, Univ. Grenoble Alpes. Le quizz a été réalisé par Émilie Besse, projet ReFlexPro.
Date de création : Septembre 2015.
Résumé : Ce document décrit les principaux éléments d’un QCM et les principales critiques qui ont été faites à son propos, notamment à propos de la devinabilité des réponses.

Introduction#

La technologie de l’écriture des QCM a pris son essor dans les années 1970, quand il s’est agi de proposer des tests d’apprentissage qui mesurent plus fidèlement l’évolution de ce dernier (voir [Roid & Haladyna, 1980] pour une revue). Nous avons choisi de focaliser le reste de ce cours sur la conception et réalisation de questionnaires à choix multiple (que nous distinguerons de questions vrai/faux). La raison première est qu’ils sont maintenant très répandus dans le domaine de l’enseignement à distance (et parfois même en présence).

Définitions#

Dans un contexte général de tests, un enseignant ou un chercheur a à poser une série de questions aux participants (élèves, apprenants) d’un contexte scolaire ou de formation donné (local ou national), pour différents propos (certification, évaluation, diagnostic, placement).

La première question à se poser est celle du format, c’est-à-dire, de quelle manière le participant répondra à la question. Comme déjà dit, deux formats sont classiquement concurrents : RC (réponse construite, par écrit ou oralement) ou CM (sélection dans un choix multiple). Centrons-nous ici sur le format CM.

Un questionnaire à choix multiple (ou test) est composé d’au moins un item. Osterlind ([Osterlind, 1998], p. 18) définit un item de test de la manière suivante : « […] une unité de mesure avec un stimulus et une forme de réponse prédéfinie, qui est conçue pour solliciter une réponse d’une personne testée, à partir de laquelle un construit psychologique donné (connaissance, habileté, prédisposition, trait) peut être inféré. » La réponse fait l’objet d’un score intermédiaire (0 en cas de mauvaise réponse, 1 en cas de bonne réponse) et les valeurs intermédiaires sont agrégées pour obtenir un score global. De plus, avant les questions et réponses, un bref descriptif du contexte peut être ajouté.

Plus précisément, un item de question à choix multiple comporte :

une amorce (question) ;
la réponse correcte ;
des réponses distractrices.

Haladyna [Haladyna, 2004] signale que la question doit donner une idée, en elle-même, du type de connaissance à sélectionner. La réponse correcte (pas nécessairement une phrase, mais aussi un symbole, un diagramme, etc.) doit l’être indiscutablement. Les distracteurs, par contraste, doivent être indiscutablement des réponses erronées, mais à la fois plausibles et difficilement devinables, ce qui est plus coûteux à déterminer pour l’enseignant concepteur.

Nuthall [Nuthall, 2007] montre de plus que le choix des alternatives est le principal déterminant de la difficulté d’un item. Il donne les deux exemples suivants (id., p. 44, la réponse correcte est en gras) :

Q1. Quelle est la capitale du Laos ?
- R1 Laotse
- R2 Ban Nakang
- R3 Vientiane
- R4 Naphang
Q2. Quelle est la capitale du Laos ?
- R1 Londres
- R2 Tokyo
- R3 Vientiane
- R4 Paris

Si les questions de ces deux items sont similaires, le premier est bien plus difficile et teste vraiment les connaissances des élèves, alors que la réponse au deuxième se déduit aisément. Un concepteur d’items doit donc avoir en tête le niveau de connaissances de ses élèves pour proposer un choix de réponses qui ne laisse pas (trop) aisément deviner laquelle est la réponse correcte.

Les critiques à propos des QCM#

Trois principales critiques ont été faites à propos des QCM :

Ils ne permettent d’évaluer que la mémorisation de mots ou de faits, et non des connaissances ou des raisonnements complexes ;
Un étudiant peut, au moins partiellement, deviner certaines réponses et donc avoir une note qui ne correspond pas à ses connaissances ;
En exposant l’apprenant à des réponses erronées, ils l’induisent en erreur.

Les QCM ne peuvent évaluer des connaissances complexes#

Beaucoup de QCM présentent effectivement des connaissances simples (association de vocabulaire, de faits simples non connectés entre eux). D’autre part, ils placent les élèves dans une situation de test plutôt que d’évaluation formative de leurs connaissances. Cela ne veut pourtant pas dire qu’on ne peut concevoir de QCM qui impliquent l’apprenant dans des activités cognitives de plus haut niveau. Le Document Répondre à un QCM : Aspects cognitifs contient des éléments à ce sujet et le Document Atelier - Les activités cognitives engagées dans un QCM en donne des exemples pratiques.

Les QCM sont devinables#

Comme nous l’avons vu dans le Document Les QCM : Bref historique, il y a deux manières pour l’apprenant de signaler ce qu’il a appris : construire sa réponse (CR) et la choisir dans une liste multiple (CM).

Les CR permettent l’expression plus précise des apprenants (bien qu’ils puissent parfois contenir des réponses ambiguës, donc difficiles à noter), mais ils sont en général plus difficiles et longs à corriger, et ne sont pas nécessairement fidèles (la note donnée dépend de certaines conditions, comme le correcteur, qui peut être soumis à de nombreuses influences pendant sa correction ; ils prennent aussi plus de temps de réponse, ce qui restreint le nombre de questions à poser pour un temps donné). Les CM sont peu coûteux à corriger, mais ne permettent guère la pleine expression des apprenants, et surtout sont (partiellement) devinables.

On a très souvent critiqué, et à juste raison, les QCM pour le problème du choix au hasard (ce qui suit est issu de Bar-Hillel et al. [Bar-Hillel et al., 2005]) : un élève qui répond à un item a une probabilité non nulle de répondre juste à la question, même s’il ne connaît pas la bonne réponse. De ce fait, il est impossible pour un enseignant de distinguer les réponses justes « par connaissance » des réponses juste « par chance » (et aucune formule de calcul ne permet de le faire : on peut juste essayer de décourager les choix au hasard). Il arrive justement de pénaliser les réponses erronées pour décourager le choix au hasard (mais, a contrario, il est impossible de distinguer une omission liée à l’ignorance plutôt qu’à l’aversion au risque). La question de la « devinabilité » des items est donc importante, mais difficile à résoudre (voir [Hanna & Oaster, 1978] pour une synthèse).

Toutefois, un élève cochant au hasard, d’une part, n’est pas si fréquent et, d’autre part, n’aurait que peu de chances d’avoir une note acceptable, si l’on se fie à un simple calcul de probabilités (voir Encadré ci-dessous). Un élève a en réalité, plutôt, une connaissance partielle du domaine, ce qui l’amène à écarter certaines réponses moins plausibles et lui donne une probabilité d’avoir une bonne note non négligeable ([Burton, 2005]). En d’autres termes, il faudrait récompenser les élèves qui utilisent une telle connaissance partielle plutôt que ceux devinant les distracteurs grâce à un test mal conçu.

De plus, il convient de signaler (voir [Rodriguez, 2003], p. 170) que la prise d’indices pour deviner de possibles bonnes réponses peut être aussi réalisée, bien qu’avec d’autres stratégies, dans le format CR : il est bien connu que certains élèves savent chercher dans l’ensemble des questions d’un test des indices de réponse à une question donnée.

Encadré 1 – Réussir un QCM entièrement au hasard : calcul de probabilités

Prenons un cas concret, décrit dans [Munroe, 2015] : combien d’étudiants étatsuniens auraient la note maximale au SAT (Scolastic Assessment Test), l’examen standardisé d’entrée à l’université qui se passe par QCM ?

La version de 2014 comporte 44 questions en mathématiques, 67 en lecture, 47 en écriture et langage (158 questions), chacune composée d’une question à 5 choix. La probabilité de trouver la bonne réponse à toutes les questions en répondant au hasard est donc :

\[ \frac{1}{5^{44}}+\frac{1}{5^{67}}+\frac{1}{5^{47}} \approx \frac{1}{2,7 \times 10^{110}} \]

Munroe explique l’ordre de grandeur de cette probabilité : sur 4 millions de jeunes passant le SAT, il est certain qu’aucun n’obtiendrait la note maximale en cochant au hasard. “ […] si chacun se servait d’un ordinateur pour passer l’épreuve 1 million de fois par jour et continuait pendant 5 milliards d’années […], la probabilité que l’un d’eux ait toutes les réponses justes dans la seule section maths serait d’environ 0,0001 %.”

Contrôler la devinabilité des réponses#

Il convient donc, pour éviter cela, soit de concevoir un QCM où aucune réponse fausse n’est spécialement devinable comparée aux autres (par exemple, en plaçant la bonne réponse aléatoirement parmi les distracteurs), soit d’amener l’élève à un calcul ou un travail intermédiaire. En effet, un QCM qui n’amène pas de traitement particulier à l’élève aura une réponse plus devinable avec du bon sens (ou le simple lien entre la question et la réponse) qu’un QCM qui amène à réaliser un traitement particulier (p. ex., calcul, réflexion). Dans ce dernier cas, les élèves ne pourront aisément deviner quelle est la bonne réponse, comme ci-dessous, où seul le calcul amène à R3 (en gras) :

Q. Quelle est la circonférence d’un cercle de diamètre 3 cm ?
- R1. 9,1 cm,
- R2. 9,3 cm,
- R3. 9,4 cm.

Cela est bien sûr plus difficile, bien que non impossible, pour des connaissances de type « sciences humaines » ou de culture générale. Par exemple, dans la question suivante (issue de http://www.makem.co.uk/index.php/surgery-hour/79-how-to-write-qorking-quiz-questions?showall=&start=5), toutes les villes ont des graphèmes plausibles, et aucune n’est trop connue (Bucarest n’est pas mentionnée) :

Q. : Parmi les villes suivantes, quelles sont celles qui sont en Roumanie ? 1) Odessa; 2) Oradea; 3) Arad; 4) Nesebâr; and 5) Timişoara.
- R1. 2, 3 et 5,
- R2. 1, 2, et 4,
- R3. 1, 3, 5.

Pour répondre à certaines critiques faites aux QCM (notamment, le fait qu’on pioche une réponse parmi d’autres, sans réelle compréhension), il est tout à fait possible que l’amorce ne soit pas qu’une question amenant une sélection (e.g., « Sélectionnez la bonne réponse »), mais qu’elle amène le questionné à réaliser une tâche plus complexe (voir document Les différents formats de QCM pour d’autres précisions).

Construire des réponses alternatives plausibles#

Il convient donc d’apporter un soin tout particulier à la construction des réponses multiples [Shermis & J, 2011]. L’idée est de ne pas seulement les considérer comme des réponses distractrices et fausses, mais aussi et surtout les concevoir comme de possibles moyens pour que l’apprenant se rende compte d’un problème de compréhension, de réalisation de stratégie, de pratique, etc. Les réponses distractrices doivent donc être formulées comme de possibles erreurs de compréhension, diagnostiquées au préalable par le concepteur du QCM, soit par une analyse de la tâche (voir section Des tâches pour évaluer les connaissances des élèves), soit par des entretiens avec les apprenants concernés. Comme dit plus haut, il faut de plus vérifier que la réponse ne soit pas trop aisément devinable.

Les QCM peuvent induire en erreur#

La deuxième critique importante à propos des QCM est qu’elle peut induire l’apprenant en erreur, tout simplement parce qu’en évaluant une réponse fausse, il active des relations entre la question et cette réponse erronée, et qu’ensuite la probabilité qu’il puisse associer question et réponse fausse augmente. Supposons qu’on ait à répondre au QCM suivant Reber [Reber, 2016] :

Q. Quel psychologue a écrit un livre sur son expérience en camp de concentration ?
- R1. S. Freud
- R2. C. G. Jung
- R3. Kurt Lewin
- R4. Viktor Frankl

Après avoir répondu (même correctement) à ce QCM, on aura plus de chances d’associer les trois premiers psychologues aux camps de concentration, ce qui peut être erroné (p. ex., Jung ne vivait pas en Allemagne pendant la seconde guerre mondiale). Toutefois, comme nous le verrons plus loin (Section Répondre à un QCM : Aspects cognitifs), les avantages des QCM peuvent outrepasser cet inconvénient.

Références#

Bar-Hillel et al., 2005: Bar-Hillel, M., Budescu, D., & Attali, Y. (2005). Scoring and keying multiple choice tests: a case study in irrationality. Mind & Society, 4, 3–12.
Burton, 2005: Burton, R. F. (2005). Multiple-choice and true/false tests: myths and misapprehensions. Assessment & Evaluation in Higher Education, 30(1), 65–72.
Haladyna, 2004: Haladyna, T. M. (2004). Developing and validating multiple-choice test items. 3th ed. Mahwah: Erlbaum.
Hanna & Oaster, 1978: Hanna, G. S., & Oaster, T. R. (1978). Toward a unified theory of context dependence. Reading Research Quarterly, 14(2), 226–243.
Munroe, 2015: Munroe, R. (2015). Et si...? Paris: Flammarion.
Nuthall, 2007: Nuthall, G. (2007). The hidden lives of learners. Wellington: NZER Press.
Osterlind, 1998: Osterlind, S. J. (1998). Constructing test items. 2th ed. New York: Springer.
Reber, 2016: Reber, R. (2016). Is multiple choice testing immoral? Psychology Today/Critical feeling Blog. URL: https://www.psychologytoday.com/blog/critical-feeling/201604/is-multiple-choice-testing-immoral
Rodriguez, 2003: Rodriguez, M. C. (2003). Construct equivalence of multiple-choice and constructed-response items: a random effects synthesis of correlations. Journal of Educational Measurement, 40(2), 163–184.
Roid & Haladyna, 1980: Roid, G., & Haladyna, T. M. (1980). The emergence of an item-writing technology. Review of Educational Research, 50(2), 293–314.
Shermis & J, 2011: Shermis, M. D., & J., D. V. F. (2011). Classroom assessment in action. Lanham: Rowman & Littlefield.

Les questionnaires à choix multiple : définitions et critiques

Contenu