L’orthographe des Français au prisme du « Grand Débat » de 2019

Le « Grand Débat » a donné lieu à de multiples contributions. Ce corpus, rendu public, a été analysé par Orthodidacte : il rend compte, à grande échelle, de ce qu’est l’orthographe réellement pratiquée par les Françaises et les Français.

Nous revenons ici sur les enseignements de cette étude. Nous évoquerons aussi la question des « biais » (représentativité ou pas, et dans quelle mesure, pour quel usage ?), avant de vous proposer d’accéder à la synthèse de l’étude, ici ou sur le site d’origine.

Pour trouver une conclusion à ce qu’on a nommé « la crise des Gilets jaunes », le président de la République Emmanuel Macron a annoncé en décembre 2018 un « Grand débat national » décentralisé. Ce débat a donné lieu à de très nombreuses contributions. Elles ont intéressé les analystes politiques et les actrices et acteurs des champs politique, économique ou social, mais pas seulement.

Le site orthodidacte.com s’en est préoccupé comme un considérable corpus permettant d’élaborer un « baromètre du niveau réel de maîtrise de la langue française ».

Les éléments du dossier

L’intégralité du corpus a été publié par le Gouvernement (https://granddebat.fr/pages/donnees...). L’analyse d’Orthodidacte porte sur les contributions de plus de 250 000 personnes, représentant un total de 170 millions de mots. Une fois écartées les réponses à des questionnaires à choix multiples (QCM) et les réponses en double, il restait un volume de 130 millions de mots, soumis ensuite à un traitement linguistique automatisé visant à déceler les différentes erreurs et leur typologie.

Le site a analysé quelque 2,5 millions d’erreurs, soit une erreur tous les 54 mots, ce qui reste particulièrement limité, quand on y songe (mais nous reviendrons sur cet aspect).

Ces 2,5 millions d’erreurs se décomposent ainsi pour le site :

  • erreurs lexicales (orthographe d’usage) : 36 %, dont principalement :
    • 78 % d’erreurs d’accents ;
    • 10 % d’erreurs sur les mots-composés ;
    • 4 % d’erreurs sur les consonnes doubles ;
    • 3 % « singulier ou pluriel » (ce qui ne relève pourtant pas des erreurs lexicales : nous n’avons pas d’indication sur ce choix de classement, mais peu importe).
  • erreurs d’accord : 34 %, dont principalement :
    • 73 % d’accords autour du nom (déterminant-nom ; nom-adjectif...) ;
    • 11 % d’accords du participe passé (la méthode Wilmet n’est pas assez diffusée) ;
    • 9 % d’accords sujet-verbe ;
    • 7 % de confusions entre infinitif et participe passé.
  • autres erreurs : 30 %, dont :
    • coquilles : 13 % (coupabre au lieu de coupable) ;
    • homonymies : 13 % ;
    • vocabulaire : 2 % (dont une moitié de pléonasmes, le reste se partageant entre anglicismes (les plus fréquents : job , dumping , smartphone ,
      business, process
      — les trois premiers relevant cependant, préciserons-nous, de l’usage courant) et confusions entre paronymes (altitude/attitude, allocation/allocution).
Tablette (« Geralt »/Pixabay, domaine public).
Image : « xresh »/Pixabay.com (domaine public).

La question des accents

L’étude impute à deux causes principales les erreurs sur les accents :

D’une part, [le] désintérêt des Français pour ces signes qui apportent peu. D’autre part, de l’inadéquation des outils d’écriture tels que les claviers d’ordinateur, de smartphone et de tablette. Faute d’outil réellement adapté à l’écriture des accents (qu’ils soient difficiles à produire ou tout simplement inaccessibles), ceux ci sont sacrifiés.

Or cette question est importante dans le cas des homophones grammaticaux qu’un accent seul distingue. Comme l’indique l’étude :

D’abord a et à , pour un total de 140 000 erreurs, et ensuite des et dès , 35 000 erreurs.

Difficile, dès lors de pouvoir complètement analyser les erreurs d’accents, qu’elles soient lexicales (absence d’un accent nécessaire ou présence d’un accent superflu ; usage erroné d’un accent aigu, grave ou circonflexe à la place d’un autre) ou orthographique (confusions a/à, la, là, ou/où, etc.).

Des biais ?

Le corpus étudié est considérable. Est-il représentatif ?

Ceux qui ont écrit ne sont pas forcément absolument représentatifs de la population : celles et ceux qui maîtrisent le moins l’écrit se sont plutôt autocensurés. Correspondant aux catégories socialement les plus modestes (globalement, ceux qui ont un niveau de formation, scolaire et/ou universitaire notamment, moins élevés que le reste de la population), ils ont pu ne pas participer au débat (indépendamment des refus « politiques » ou « idéologiques ») comme leurs contributions ont pu être plus réduites en volume.

Statistiquement, celles et ceux qui se sont exprimés ont été plus souvent des personnes avec un « capital culturel et scolaire » (au sens de Pierre Bourdieu), plus élevé que la moyenne. Comme en matière politique, il existe, selon la formule du politiste Daniel Gaxie, un « cens caché »".

Il y a donc un « biais de représentativité » qui ne retire rien à l’intérêt de l’étude d’Orthodidacte, mais si elle conduit à la prudence avant toute généralisation (dans un sens ou un autre).

Sur Twitter, Foucauld Pérotin, après avoir relevé comme nous que :

Les scripteurs qui ont rédigé ces contributions « ouvertes » s’estimaient légitimes pour cela, capables de manier le langue../quote>

Et il ajoutait :

le soin apporte à la rédaction (relecture, correction) a pu être supérieur à d’autres types d’écrits ordinaires.

En quoi l’on revient aussi à la difficulté d’analyse qui découle du support utilisé. L’ordinateur peut donner lieu à utilisation d’un logiciel de correction plus fiable (en tout cas sur l’usage). Il permet aussi une saisie initiale sur traitement de textes, suivie d’une impression papier pour une meilleure relecture que sur écran. Tel n’est pas souvent le cas des ordiphones (smartphones) — outre les problèmes d’accentuation avec leurs claviers virtuels. Quant aux tablettes, dans leur grande variété, elles sont des hybrides se rapprochant davantage, de ce point de vue et selon le cas, des premiers ou des seconds.

Autrement dit, nous avons un résultat brut qui ne permet pas de faire toutes les mises au point qu’on pourraient souhaiter réaliser. Cela invalide-t-il l’étude ?

Image « Xresh »/Pixabay.com (domaine public)

Quelques réponses non « biaisées »

Certes, comme nous l’avons vu, les sources utilisaient avaient leurs limites, leurs inconvénients ou leurs ambiguïtés, mais l’étude a une force : elle est fondée sur un échantillon considérable.

Comme nous l’a fait remarquer Camille Martinez, docteur en linguistique (Orthodidacte), dans un échange sur le sujet :

On ne dit pas que l’étude est représentative des usages. En revanche, quand on collecte les erreurs produites par autant de personnes, l’étendue de la collection est maximale. Pour obtenir des données équilibrées, on travaille sur d’autres grands corpus et leurs erreurs. De cette façon on voit quel type d’erreur est plus ou moins fréquent selon le corpus.

Ainsi conclurons-nous qu’à défaut d’être étalonné de manière identique (ou quasi identique) par rapport à la population ou aux instruments de saisie (ordinateur, téléphone...), ce corpus spécifique est l’occasion d’une analyse de grande dimension sur la langue écrite telle qu’elle est pratiquée réellement par les Françaises et les Français.

L’exactitude statistique est loin d’être absolue, mais la masse de données traitées est très largement significative. C’est en quoi l’étude est utile : au-delà des représentations individuelles ou collectives reposant sur un « ressenti » souvent faussé, elle permet de rappeler que les Françaises et les Français ne s’en tirent pas si mal que ça avec une langue à maints égards complexe et elle permet de pointer, pour un public adulte, ce que sont les erreurs les plus fréquentes.

Accéder à l’étude

Avec l’aimable autorisation d’Orthodidacte, nous reprenons ici l’enquête complète que vous pouvez télécharger ici (icône à droite). Vous pouvez également accéder à l’enquête sur le site d’origine à partir de cette page.

P.-S.

Mise à jour et révision le 3/6/2019.

Partager

Imprimer cette page (impression du contenu de la page)