Outils d’analyse textométrique pour l’enseignement#

Informations

Informations supplémentaires
  • Durée de lecture : 10 minutes.

  • Date de modification : 20 mai 2024.

  • Statut du document : En travaux.

  • Citation : Pour citer ce document : Auteur·s (Date_de_création_ou_de_révision). Titre_du_document. Grenoble : Univ. Grenoble Alpes, Inspé, base de cours en sciences de l’éducation, accédé le date_d_accès, URL_du_document.

  • Licence : Document placé sous licence Creative Commons : BY-NC-SA.

Introduction#

Il est souvent difficile, pour un enseignant, de déterminer rapidement, globalement, et objectivement certaines caractéristiques des textes qu’il donne à lire à ses élèves, ou que ces derniers produisent, et lui procurer des représentations aisées à analyser. Bien sûr, tout logiciel de traitement de textes dispose déjà de quelques fonctionnalités qui vont l’aider (comme le comptage de mots), mais elles sont limitées.

Il existe un courant de recherche assez ancien, la textométrie, qui étudie ce type de caractéristiques. Cette discipline a bien sûr des utilisations plus diverses que celle ci-dessus. Par exemple, des controverses peuvent survenir à propos de la paternité littéraire de tel ou tel ouvrage ou, même œuvre. La textométrie permet d’analyser finement le vocabulaire employé dans la ou les œuvre(s), et donc, au bout du compte, de savoir si tel auteur en est bien l’auteur. Récemment, Cafiero et Camps (2020) ont pu démontrer que Molière était bien l’auteur de ses œuvres et qu’elles se différenciaient bien, à la fois du point de vue du vocabulaire que de la syntaxe, de celles de Corneille, qui a longtemps été suspecté d’avoir écrit ces œuvres. Le but de ce document est de donner aux enseignants une boîte à outils dans ce domaine.

Buts pédagogiques#

Listons maintenant les buts pédagogiques qu’un enseignant peut avoir en tête en lisant des productions d’élèves ou en sélectionnant des textes pour ces derniers. La mise en œuvre de chacun de ces buts sera exemplifié rapidement avec un logiciel.

  • connaître les statistiques de l’usage des mots (ou la capacité à les orthographier), par niveau ;

  • avoir un aperçu global du contenu d’un texte, avant de l’étudier de plus près ;

  • évaluer la lisibilité et complexité des textes donnés à lire aux élèves (Lieury, 1996, ayant montré que les manuels scolaires de collège comprennent environ 5 000 mots qui sont hors de la compréhension des élèves) ;

  • évaluer la complexité des textes écrits par les élèves ;

  • être une aide à l’écriture (correcteur orthographique et grammatical).

Quelques utilisations pédagogiques#

Voici quelques utilisations pédagogiques des outils présentés plus bas.

  • Faire réaliser, dans deux classes différentes (ou deux groupes d’une classe), des textes produits dans deux conditions différentes (en changeant la tâche, les contraintes de production), et utiliser des outils de comparaison (p. ex., lexicale).

  • Faire produire des textes avec une tâche précise (p. ex., des portraits de monstres). Analyser leur richesse lexicale (noms, verbes, adjectifs utilisés) et la comparer avec celle d’albums de littérature de jeunesse. Étudier de plus près les concordances (p. ex. “un monstre cruel”, “des yeux terribles”). On peut également étudier de plus près les adjectifs utilisés.

Quelques outils#

Statistiques sur l’usage et le sens des mots#

Un premier niveau d’utilisation des outils lexicaux est de s’y intéresser au niveau des mots. Ce niveau n’est bien sûr pas utilisable dès que les élèves sont confrontés à de très nombreux mots, mais il peut être utile : - au niveau du Cycle 2, pour étalonner des lectures ; au niveau du Cycle 3, pour étalonner des dictées ; et à tous les autres niveaux pour chercher des mots spécifiques.

Il existe plusieurs bases lexicales pour le français, recensées par OpenLexicon ; elles sont classées par contenu ; les bases :

  • généralistes (principalement Manulex de Lété et al. (2004) ; Lexique, de New et al. (2001)) ;

  • sous-lexicales, listant des fréquences de bigrammes ou trigrammes de lettres, ou phonèmes ;

  • par âge d’acquisition ;

  • de valence émotionnelle (évaluant le type d’émotions véhiculées par un mot donné) ;

  • de fréquence subjective ou familiarité ;

  • d’expérience sensorielle (évaluant le degré auquel un mot suscite une expérience sensorielle)

  • de durée de lecture.

  • de synonymie classée par difficulté : Resyf (Univ. de Louvain, Belgique).

Évaluer la lisibilité des textes#

Les enseignants proposent, et parfois produisent de nombreux textes à lire à leurs élèves sans toujours se questionner sur leur lisibilité. On peut envisager ce terme à plusieurs niveaux. Tout d’abord, celui de la complexité de surface des mots, phrases, paragraphes, et ensuite celui de la connaissance nécessaire pour comprendre ces textes.

Cette lisibilité se mesure de deux manières : en fonction de caractères objectifs du texte (longueur moyenne des mots, des syllabes de mots, de phrases), et en fonction de caractères plus psychologiques (âge moyen d’acquisition de mots).

Le site Scolarius propose d’évaluer, selon 4 indices différents, des textes en fournissant un score proportionnel à son niveau de difficulté (par exemple, ce paragraphe a été évalué comme étant de niveau universitaire, avec un score de 186). Voici brièvement expliqués les 4 indices (voir Conquet & Richaudeau, 1973, pour plus d’informations :

  • La formule de Flesch, qui agrège deux scores, l’un de facilité de lecture, qui tient compte du nombre moyen de syllabes par mots et de la longueur moyenne des phrases en mots ; l’autre d’intérêt humain, qui tient compte du pourcentage de mots personnels (pronoms, noms référant à des humains) et du pourcentage de phrases de style direct.

  • La formule de Gunning (ou l’index “brouillard”), qui tient compte du nombre moyen de mots par phrases et le pourcentage de mots de plus de 3 syllabes (donne des scores corrélant bien à ceux de Flesch).

  • La formule de Fry, qui tient compte du nombre, pour 3 passages de 100 mots pris au hasard dans le texte, du nombre de ses phrases et du nombre de syllabes.

  • La formule d’“écoutabilité” de Fang, qui tient compte du pourcentage de mots de plus de 2 syllabes par phrase.

On peut aussi recourir, pour une analyse plus détaillée, au site A-Mesure de T. François, qui analyse la difficulté lexicale, syntaxique, et textuelle, bien que centré sur les textes administratifs.

Étudier les concordances#

Il peut être intéressant d’étudier, dans un ensemble de textes, les concordances d’un mot incluant son contexte (les mots qui le précèdent et le suivent). On peut ainsi s’intéresser aux contextes dans lesquels apparaissent tel ou tel mot, central dans la compréhension d’une notion. Par exemple, si l’on veut, au lycée, avoir une idée de ce que les élèves comprennent à propos de la notion de gène, on peut utiliser un concordancier, qui présente le mot gène et son contexte proche (i.e., les mots qui le précèdent et le suivent). Ainsi, l’enseignant aura une idée des conceptions des élèves à son propos.

Pour cela, il est possible d’utiliser un concordancier, une fonction disponible dans TMX de Heiden et al. (2010), ou dans AntConc.

Il existe aussi des concordanciers bilingues s’appuyant sur de vastes corpus, utilisables dans l’enseignement de langues (très utile en traduction, notamment), comme Linguee (anglais-français) ou Tradooit (anglais, français, espagnol).

Faire des comparaisons intertextes#

On peut aussi avoir dans l’idée de comparer les textes produits par ses élèves selon différents facteurs. À cette fin, des logiciels comme IRaMuTeQ ou R temis peuvent être utiles, mais nécessitent un niveau de compréhension minimale du logiciel de statistiques R.

Avoir un aperçu global du contenu d’un texte#

Des logiciels du type d’Anatext donne une vue globale suffisante dans beaucoup de cas (nombre de phrases, mots les plus fréquents, etc.). Avoir un aperçu de ce que traite un texte est une autre application possible. Le tutoriel de P. Godiveau (s.d.) est utile à cette fin, ainsi que Granfeldt (2006). Les nuages de mots sont un moyen très utilisé d’avoir ce type d’aperçu, pour autant, ils sont assez controversés (Hearst, 2008 ; Marchand & Ratinaud, s.d.).

NoCode functions offre de nombreux outils d’analyse textuelle, dont une représentation des co-occurrences lexicales (“Transformer les textes en réseaux”).

Analyse morpho-syntaxique#

Jusqu’à présent, l’analyse des mots ou textes produits était uniquement au niveau lexical, et non grammaticale. La plupart des analyseurs morpho-syntaxiques sont d’accès difficile, mais Direkt Profil en propose une version en ligne gratuite.

Correcteur orthographique et grammatical#

Grammalecte est un correcteur orthographique et grammatical pouvant se greffer à la suite LibreOffice/OpenOffice et aux principaux navigateurs.

Analyse de la participation à des discussions#

Dans le cadre de discussions (p. ex., débats en public, discussions en ligne), il est difficile pour un enseignant, ou un chercheur, d’avoir une vue générale de la participation de chacun. ReaderBench est un système en ligne qui permet cette vue générale. Le Tutoriel tuto_rb_conpa donne un aperçu de son utilisation.

Accéder à des corpus d’écrits#

Il peut également être intéressant de comparer les productions de ses élèves avec d’autres. Pour cela, il existe quelques corpus librement accessibles de productions d’élèves

Un exemple d’utilisation : AnaText#

Nous détaillons ici une analyse plus détaillée d’un texte, avec le système AnaText.

Tout d’abord, en première analyse, des informations quantitatives sur la longueur du texte : nombre de phrases, nombre de formes, nombre de caractères. Ainsi que sur sa richesse : nombre de lemmes différents. Plus spécifiquement, le nombre d’adjectifs par exemple dans le genre du portrait (ou autre description) et parce qu’on sait que les adjectifs sont peu exploités dans les textes d’élèves et/ou toujours les mêmes (petit, grand).

Ensuite, on peut étudier les rubriques « tous les lemmes »/ « toutes les formes » pour intégrer aussi le recours à la ponctuation : usage du seul point ou d’un répértoire plus varié de signes ? (Exemple : usage du dialogue). On peut aussi rechercher des patterns particuliers : DET-N, ADJ-N, N-ADJ, recherche de segments répétés (ex. de sortie : det N : le lapin, ou locutions verbales « avoir peur »).

Il est également possible de soumettre l’ensemble du corpus (donc, un ensemble de productions d’élèves) à l’analyse pour avoir une vue générale des productions d’une classe ou d’un groupe, avant de zoomer sur les différences entre productions : dans ce scénario, l’enjeu n’est pas la longueur ou richesse d’un texte, mais plutôt les univers de référence, les choix lexicaux, le répertoire des temps verbaux et des signes de ponctuation.

Attention à certaines spécificités :

  • Problèmes dans l’identification des temps : les étiqueteurs identifient les temps simples (donc le temps des formes simples ou le temps des auxiliaires pour les formes composées). Exemple : présent regroupe les occurrences de verbes au présent et les occurrences de auxiliaire au présent + V participe passé.

  • Pb dans l’identification de la classe grammaticale (parties du discours) dans les textes non normés (orthographe initiale). On peut avoir du bruit : des formes repérées non attendues, ici dans la rubrique adjectifs on trouve des verbes et l’adverbe « après ». Idem, dans la rubrique nom : avé, sété, cour donc des formes verbales. On a également des silences : des formes attendues non repérées : des verbes peuvent être comptés comme adjectifs ou noms.

Il faut donc être conscient des limites de l’analyse automatique.

Ressources web#

Nous présentons ici une liste de logiciels gratuits (et/ou libres) permettant de réaliser certaines des opérations décrites ci-dessus.

Logiciels#

Ressources#

Références#