Évaluation formative des étudiants à distance#

Information

Document
Auteur : Philippe Dessus, Inspé & LaRAC, Univ. Grenoble Alpes
Date de création : Janvier 2021.
Résumé : Ce Document présente quelques éléments de réflexion, puis pratiques, à propos de l’évaluation formative des étudiants par le numérique, à distance.
Voir aussi : Les Documents Évaluation formative, ou pour l’apprentissage et La surveillance numérique des étudiants lors des examens.

Pourtant, “ […] les effets des mauvaises pratiques sont bien plus puissants [dans le cas de l’évaluation] que dans tout autre aspect de l’enseignement. Les élèves peuvent, avec difficulté, s’échapper des effets d’un mauvais enseignement ; ils ne peuvent (s’ils veulent réussir dans un cours) échapper aux effets d’une mauvaise évaluation. ” ([McDonald et al., 2000] p. 8)

Introduction#

Avec la récente pandémie de la Covid-19, l’enseignement supérieur (mais aussi, dans une moindre mesure, les enseignements des premier et second degrés) a dû aborder une mise à distance d’urgence [Charroud et al., 2020]. Ce sont non seulement les moyens de diffuser des informations à propos d’un contenu, mais aussi les moyens d’évaluer la compréhension de ce même contenu qui ont dû être rapidement, et souvent sans beaucoup de préparation, porté dans des systèmes d’enseignement à distance.

Ce document s’intéresse aux moyens d’évaluer les étudiants et leur compréhension d’un contenu, dans une perspective qui s’intéresse moins à tester les étudiants qu’à les évaluer (c’est-à-dire, évaluer de manière formative, voir Évaluation formative, ou pour l’apprentissage).

Le numérique et l’évaluation#

D’après [Bryant et al., 2020], qui ont réalisé une étude à propos des enseignants des premier et second degrés, le numérique permet de réallouer de 20 à 30 % du temps hebdomadaire passé à enseigner sur d’autres tâches.

préparation : gain 5 h
évaluation/rétroactions : gain 3 h
administration : gain 2,5 h
enseignement en classe : gain 2 h
formation professionnelle : gain 0,5 h

Voici une définition plus précise de l’évaluation de compétences en ligne : “[…] toutes tâches d’évaluation informatisées où les [tâches], la performance et les rétroactions sont médiatisées par les technologies” ([Tinoca et al., 2014] p. 7) Dans ce cas, c’est à la fois les compétences à propos de tâches données (pouvant être élaborées par l’enseignant ou les apprenants, la performance des apprenants, et les rétroactions (qu’elles soient données par l’enseignant, des pairs, ou l’apprenant lui-même).

Toutefois, il faut noter que ces éléments n’abandonnent pas une certaine quantité d’enseignement en présence, de nombreuses études montrant que les performances d’apprentissage baissent dès lors que l’enseignement se réalise totalement à distance [Escueta et al., 2017].

Évaluer via numérique ou papier-crayon ?#

Voici quelques différences notables entre l’activité d’évaluer l’apprentissage via numérique ou papier-crayon, à l’avantage du premier. Tout d’abord, on peut beaucoup plus aisément, avec le numérique recueillir des processus (durées de tâches, hésitations, etc.) qui peuvent être analysables par la suite, notamment par des visualisations synthétiques pour suivre les progrès des apprenants. Ensuite, le recueil et une partie du traitement évaluatif peut être automatisé, impliquant donc moins de “fatigue évaluative” côté enseignant, et plus d’entraînement du côté des apprenants. Moins de “fatigue” peut aussi signifier moins de recours aux stéréotypes ou effets d’ancrage.

Des évaluations standardisées répartissent les étudiants par niveaux de manière plus fiable et rapide que les enseignants, pouvant reposer sur des statistiques psychométriquement valides (voir par exemple le fonctionnement de TACIT, logiciel d’entraînement à la compréhension, univ. Rennes-2). Les rétroactions (semi-)automatiques peuvent être délivrées juste après la production des étudiants, ce qui peut améliorer leur compréhension du contenu.

En revanche, nous pouvons aussi noter quelques inconvénients, qui se sont d’ailleurs exacerbés pendant la pandémie. Tout d’abord, même si l’on parle souvent de “personnalisation” de l’enseignement ou de l’évaluation, ce terme est galvaudé (Guillaud, 2015) : les évaluations automatiques produites sont plus impersonnelles que des évaluations réalisées par des enseignants qui connaissent les étudiants. Ensuite, les évaluations standardisées vues plus haut, si on ne recourt qu’à elles, peuvent elles aussi “impersonnaliser” l’évaluation, la rendre plus lointaine du jugement de l’enseignant. Ensuite, les données personnelles recueillies, puisqu’elles sont sur support numérique et souvent en ligne, sont plus aisément piratables ou modifiables (que ce soit par les étudiants ou les enseignants). De plus, ces données sont de plus en plus susceptibles d’être réutilisées à des fins commerciales ou de profilage.

Pour finir, et ce point est un principe général : réaliser plus de recueils et de fouilles de données amène à en recueillir et fouiller toujours plus [Biesta, 2020], sans pour autant avoir l’assurance d’aller vers une évaluation plus juste (comme le montrent les récentes avancées de la technique de l’apprentissage profond, réalisant des évaluations biaisées malgré la très grande quantité de données traitées, voir biais algorithmique).

Efficacité des évaluations en ligne#

Il existe d’assez nombreuses méta-analyses sur l’enseignement en ligne, donnant quelques éléments sur ce qu’on peut faire en termes d’enseignement :

Inclure des questionnaires en ligne (ou des vidéos) n’améliore pas l’apprentissage si on compare cela à donner des devoirs aux apprenants [Means et al., 2010].
Toutefois, faire réaliser des questionnaires en ligne permet que les étudiants testent et confrontent leurs connaissances, il est à noter, toutefois, que cela les entraîne en même temps à “jouer” avec les questionnaires, donc à deviner les bonnes réponses (voir [Jonsson et al., 2017] et le Document Répondre à un QCM : Aspects cognitifs).
Donner aux apprenants le contrôle de leurs interactions avec le média et le contenu et favoriser leur réflexion sur leur compréhension [Means et al., 2010].
Donner un guidage au niveau des groupes d’étudiants est moins efficace que de donner un guidage individuel [Means et al., 2010].
Permettre aux participants de communautés en ligne d’interagir de manière dynamique dans des forums/thèmes spécifiques, en leur procurant des rétroactions et en leur offrant la possibilité d’accéder à des preuves d’apprentissage des années antérieures pour leur auto-régulation et auto-évaluation ([Gikandi et al., 2011], p. 2341). Toutefois,
Des interactions fructueuses avec le contenu enseigné surviennent lorsque l’évaluation formative se déroule dans un contexte authentique dans lequel les étudiants ont à réaliser diverses activités stimulantes et motivantes avec du matériel relié à des situations de la vie réelle ([Gikandi et al., 2011], p. 2342). L’utilisation d’outils de type “web 2.0” peut aider à cette diffusion.
Promouvoir les interactions entre enseignant et étudiants et inter-étudiants leur permet de partager leur travail, opinions, et expériences ([Gikandi et al., 2011], p. 2343).

Voici quelques éléments pour mieux comprendre les méta-analyses :

[Means et al., 2010] : méta-analyse réunissant 99 quasi-expérimentations sur l’enseignement en ligne à l’enseignement en présence, à tous niveaux d’enseignement, de 1994 à 2008.
[Gikandi et al., 2011] : revue systématique de 18 études-clés dans le domaine de l’évaluation en ligne dans l’enseignement supérieur, de 2000 à 2010.

Critères de conception d’évaluations en ligne#

Voici quelques critères utiles à prendre en compte pour réaliser des évaluations en ligne ([Tinoca et al., 2014] pp. 11-12) :

authenticité : les tâches réalisées en ligne entraînent des performances des apprenants les plus proches possibles de celles qu’ils auraient en contexte professionnel ;
cohérence : les tâches réalisées en ligne, ainsi que leurs critères d’évaluation, se réfèrent de manière cohérente au curriculum de la formation (diversité et validité des critères d’évaluation, des situations) ;
transparence : le programme d’évaluation des compétences est visible et compréhensible par tous les apprenants ; ces derniers sont informés des buts d’apprentissage, des critères d’évaluation, mais aussi des moyens de réaliser les tâches ; ils sont également informés de l’usage d’éventuels outils de traçage ou de détection du plagiat ; toutefois, ce principe de transparence ne doit pas contrevenir celui d’authenticité (être trop prescriptif dans les tâches à remplir freine la construction de connaissances, voir [Anderson & Rivera-Vargas, 2020]).
praticabilité : les tâches évaluées sont réalisables dans les délais et avec les moyens impartis.

Ce que l’on peut faire#

Quelques tâches authentiques#

Utiliser une plate-forme de gestion de conférences (e.g., EasyChair) pour faire publier, puis expertiser une série de travaux d’étudiants ;
Même activité avec des productions de réponses à des appels à projets {Harland, 2016 #22702}
Organiser une journée contributive sur la Wikipedia sur un thème donné ;
Faire construire des portfolios individuels par les étudiants, sur un thème donné.

En asynchrone#

Faire passer des questionnaires à choix multiple (soit en les concevant un par un, soit en passant par une banque de questions) ;
Faire concevoir des questionnaires à choix multiple par les étudiants [Fellenz, 2004].
Forums asynchrones : (faire) procurer de l’aide dans des forums asynchrones et évaluer les contributions des étudiants par la grille ci-dessous (Tableau I) [Vonderwell et al., 2007].

Note

Tableau I - Grille d’évaluation des posts d’étudiants dans un forum asynchrone (Vonderwell 2007, p. 314).

la discussion est nourrie et est en rapport avec les questions principales (1 point)
la discussion fait état d’une réflexion importante et stimulante (1 point)
la discussion provoque de l’intérêt et une investigation profonde du sujet (1 point)
la discussion est centrée sur la construction de connaissances dans le groupe et l’apprentissage individuel (2 points)
l’étudiant poste des documents, des exemples pour être partagés avec le groupe-classe (2 points)
l’étudiant utilise des exemples personnels/professionnels montrant leur utilisation dans des problèmes-clés (1 point)
l’étudiant réfère à des travaux, des revues de littérature, des théories, des recherches pour discuter de son point de vue et de ses idées (4 points)
l’étudiant analyse les discussions des pairs et réfléchit sur les problèmes discutés (2 points)
l’étudiant réfère aux discussions des autres et contribue aux discussions déjà postées (1 point)
l’étudiant donne des solutions et des suggestions aux problèmes posés (2 points)
l’étudiant initie des discussions, lève des problèmes, des difficultés (1 point)
l’étudiant montre de la compréhension et de l’intérêt dans le sujet abordé (1 point)
les rétroactions aux membres du groupe sont constructives, spécifiques et aidantes (1 point)
l’étudiant fait preuve d’une présence en ligne régulière et de bon niveau (5 points)
Évaluation par les pairs
Auto-évaluation

Des évaluations automatiques#

Il existe des outils d’évaluation automatique, souvent à l’état de prototypes, permettant par exemple :

d’évaluer le niveau de contribution des apprenants (ReaderBench).

Surveiller et contrôler, jusqu’où ?#

Les systèmes de contrôle de non-plagiat se sont largement diffusés dans les universités ces 5 dernières années, non sans poser un certain nombre de problèmes (e.g., les travaux des étudiants sont cédés à une plate-forme privées, sans qu’ils en soient toujours informés ; les résultats des systèmes sont parfois influencés par un vérification a priori des étudiants).

La nécessité de réaliser des examens à distance a vu naître un nouveau type de service : la vérification d’identité et surveillance des étudiants en ligne (en anglais, proctoring). Si la vérification d’identité des étudiants passant un examen est nécessaire, comme elle le serait en présence, certaines extensions de cette vérification deviennent très intrusives : prise de contrôle de l’ordinateur des étudiants ; utilisation de techniques de reconnaissance faciale, voir CNIL 2020). Ces techniques, de plus, augmentent l’anxiété des étudiants, déjà plus importante depuis la mise en place de l’enseignement entièrement en ligne [Silverman et al., in press]. Plus d’information dans ce Document La surveillance numérique des étudiants lors des examens.

Références#

Sur internet#

CNIL (2020, 20 mai). Surveillance des examens en ligne : les rappels et conseils de la CNIL.
Guillaud, H. (2015). L’avenir algorithmique de l’éducation. Billet du Blog Internetactu.net du 28 octobre.

Anderson & Rivera-Vargas, 2020: Anderson, T., & Rivera-Vargas, P. (2020). A critical look at educational technology from a distance education perspective. Digital Education Review, 37, 208–229.
Biesta, 2020: Biesta, G. (2020). Educational research. An unorthodox introduction. London: Bloomsbury.
Bryant et al., 2020: Bryant, J., Heitz, C., Sanghvi, S., & Wagle, D. (2020). How artificial intelligence will impact K-12 teachers. New York: McKinsey & Company.
Charroud et al., 2020: Charroud, C., Dessus, P., & Osete, L. (2020). Confinement et pratiques évaluatives : une moocification urgente et forcée ? Évaluer - Journal International de Recherche en Éducation et Formation (e-JIREF), 1 hors-série, 53–58.
Escueta et al., 2017: Escueta, M., Quan, V., Nickow, A. J., & Oreopoulos, P. (2017). Education technology: An evidence-based review. National Bureau of Economic Research, Working Paper 23744.
Fellenz, 2004: Fellenz, M. R. (2004). Using assessment to support higher level learning: the multiple choice item development assignment. Assessment & Evaluation in Higher Education, 29(6), 703–719. doi:10.1080/0260293042000227245
Gikandi et al., 2011(1,2,3,4): Gikandi, J. W., Morrow, D., & Davis, N. E. (2011). Online formative assessment in higher education: a review of the literature. Computers & Education, 57(4), 2333-2351. doi:10.1016/j.compedu.2011.06.004
Jonsson et al., 2017: Jönsson, A., Rosenlund, D., & Alvén, F. (2017). Complement or contamination: a study of the validity of multiple-choice items when assessing reasoning skills in physics. Frontiers in Education, 2. doi:10.3389/feduc.2017.00048
McDonald et al., 2000: McDonald, R., Boud, D., Francis, J., & Gonczi, A. (2000). New perspectives on assessment. Vol. 4. Paris: UNESCO.
Means et al., 2010(1,2,3,4): Means, B., Toyama, Y., Murphy, R., & Bakia, M. (2010). Evaluation of evidence-based practices in online learning: A meta-analysis and review of online learning studies. U.S. department of education.
Silverman et al., in press: Silverman, S., Caines, A., Casey, C., Garcia de Hurtado, B., Riviere, J., Sintjago, A., & Vecchiola, C. (in press). What happens when you close the door on remote proctoring? moving towards authentic assessments with a people-centered approach. To Improve the Academy.
Tinoca et al., 2014(1,2): Tinoca, L., Oliveira, I., & Pereira, A. (2014). A conceptual framework for e-assessment in higher education – authenticity, consistency, transparency and practicability. In S. Mukerji, & P. Tripathi (Eds.), Handbook of Research on Transnational Higher Education Management (pp. 652–673). Hershey: IGI Global.
Vonderwell et al., 2007: Vonderwell, S., Liang, X., & Alderman, K. (2007). Asynchronous discussions and assessment in online learning. Journal of Research on Technology in Education, 39(3), 309–328.

Évaluation formative des étudiants à distance

Contenu