dimanche 7 mai 2017

Leçon de sondages 101

Imaginez un scénario fictif où quatre partis politiques dominent les intentions de votes d'une population de cinq million d'électeurs: les Rouges, les Bleus, les Verts et les Orangés. Une firme de sondages prend un échantillon de 1000 citoyens éligibles et leur demande pour qui ils ont l'intention de voter.

Voici les résultats, arrondis au pourcent près:
Rouges: 32%
Bleus: 26%
Verts: 24%
Orangés: 13%
Autre: 5%

Le surlendemain, une autre firme publie des résultats convergents:
Rouges: 32%
Bleus: 27%
Verts: 25%
Orangés: 13%
Autre: 4%



Les éditorialistes des grands médias commencent maintenant à écrire que les rouges semblent indélogeables, qu'ils sont certains de gagner à cause de la division du vote, que l'électorat semble figé. Certainement, deux sondages consécutifs qui offrent le même portrait des intentions de vote, ça ne peut certainement pas être une coïncidence. Non?

Des chroniqueurs, vous devinez lesquels, écrivent alors que les bleus sont condamnés à perdre parce que le Québec a perdu sa vocation et sa raison-d'être - etc. Ils blâment les Verts, les Orangés, les immigrants, le fédéral, la mondialisation, Gary Bettman...

...jusqu'à ce qu'un troisième sondage soit publié quelques jours plus tard:
Rouges: 31%
Bleus: 31%
Verts: 20%
Orangés: 12%
Autre: 5%

Que s'est-il passé? Les appuis aux Verts ont fondu et les Bleus semblent avoir gagné du momentum. Il y a maintenant égalité en tête avec les Rouges et les Bleus à 31%.


Des conférences de presse s'organisent. Des déclarations de militants pro-Bleus affirmant que les Verts n'ont aucune chance de gagner et donc, pour déloger les Rouges, ces Verts devraient se rallier. Les têtes dirigeantes des Rouges se rencontrent d'urgence pour revoir leur stratégie. Ils avaient une avance de 6 points lors du premier sondage. Qu'a-t-il bien pu se passer?

Et un quatrième sondage est publié par, disons, la firme qui avait publié le premier:
Rouges: 33%
Bleus: 26%
Verts: 25%
Orangés: 13%
Autre: 4%

Les Rouges, selon cette firme, possèdent maintenant une avance de 7 points par rapport aux Bleus. Les Verts et les Bleus sont à quasi égalité!


Les chroniqueurs et les « faiseux d'opinions » s'en donnent à coeur joie. Cette firme est biaisée! Mauvaise méthodologie! Gang de vendus aux Rouges! Comment une firme peut donner une égalité Rouges-Bleus et une autre firme donner une avance de 7 points aux Rouges! Ça ne marche pas tout ça!

Et le temps passe.

Les partisans font de la partisanerie en prenant les données avec lesquelles ils sont d'accord et en rejetant celles qui les importunent. Les gens se traitent de noms sur les réseaux sociaux et se bloquent mutuellement en s'assurant de ne lire que des nouvelles et des opinions réconfortantes...

Et après huit sondages, nous avons ceci:


Les chiffres se resserrent, mais ils continuent d'osciller.

Après vingt sondages, nous avons ceci:



Sur les vingt sondages présentés ci-dessus:

  • Les Rouges oscillent entre 30% et 34%;
  • Les Bleus obtiennent entre 26% et 31%;
  • Les Verts varient entre 20% et 27%;
  • Les Orangés tombent jusqu'à 10% et remontent jusqu'à 14%...

Où est-ce que je m'en vais avec cette petite histoire fictive?


En conclusion


Les données des sondages fictifs de ce billet ont été générées à partir d'un code tout simple. J'ai généré 5 millions de votes aléatoires avec la pondération suivante:
Rouges: 32%
Bleus: 28%
Verts: 24%
Orangés: 12%
Autre: 4%

Ensuite, j'ai créé des « sondages » qui pigeaient, au hasard, 1000 votes parmi les cinq millions. Oui, tous les sondages fictifs de ce billet proviennent de la même banque de données.

Avez-vous remarqué l'ampleur des variations?

Généralement, un sondage ayant un échantillon aléatoire de 1000 personnes sur une population de plusieurs millions aura une marge d'erreur autour de 3%, 19 fois sur 20. Et bien devinez quoi? Le 3% s'applique à chaque donnée, et non à la différence entre le meneur et le deuxième.

De plus, 19 fois sur 20? Et bien, le vingtième sur vingt ... survient une fois sur vingt!

Quand CROP et Léger ont publié des chiffres radicalement différents en décembre dernier, plusieurs commentateurs et « faiseux d'opinions » ont eu comme réaction de dénigrer le travail des sondeurs et d'immédiatement questionner leurs méthodes et leur sens éthique - au lieu d'essayer de comprendre un tant soit peu les lois des statistiques. Joseph Facal, du Journal de Montréal, avait écrit une chronique tellement ridicule que j'en avais mal aux yeux.

Dans une chronique intitulée « Sondages: qui dit vrai? » publiée le 20 décembre 2016,  M. Facal écrivait:
« À ce moment précis, y a-t-il 20 % ou 30 % ou 35 % des gens qui voteraient pour tel ou tel parti? C’est l’un ou l’autre, et ce n’est pas une affaire de goût ou de valeurs. Le chiffre que vous avancez est vrai ou faux. That’s it that’s all. » (source)

My God.

Non. Non, non, non, ce n'est vraiment, mais vraiment pas comment ça marche.

M. Facal écrit ensuite que la déroute des Libéraux aux élections partielles (deux semaines plus tôt) était une indication que les chiffres de CROP était clairement dans l'champ, même si, historiquement, les élections partielles au Québec ont rarement été des baromètres fiables, particulièrement en situation de gouvernement majoritaire, où le dénouement des partielles ne change en rien l'état du gouvernement:

« Bref, il est radicalement impossible de réconcilier les résultats du sondage CROP-La Presse avec ceux des élections partielles tenues quelques jours plus tard. »
(source)

Et tiens, tiens... que c'est bizarre! En janvier 2017, CROP donnait le PLQ en avance par 8 points et Léger par 3 points. Depuis, Léger a placé le PLQ en avance par 9 points en mars. Mainstreet Research donnait aux Libéraux une avance de 3 points en février et 13 points à la fin mars.



Clairement, l'égalité PLQ-PQ du sondage Léger de décembre 2016 semble avoir été l'anomalie.

Les chiffres de sondages fluctuent. C'est normal. C'est ça, les statistiques.

Le sondage Léger en question n'avait rien de mauvais! Il faisait partie des fluctuations normales de la nature même des sondages. Le sondage CROP de décembre 2016 donnait une avance de 13 points aux Libéraux. Ces chiffres aussi étaient de l'autre extrême des marges d'erreur. La réalité était probablement quelque part dans le milieu, soit une avance libérale de 5-7 points. Avec du recul, on remarque que d'autres sondages ont convergé vers ces valeurs.

Donner trop d'importance à un seul sondage, c'est aussi bête que les ignorer complètement. Voilà pourquoi il est important de calculer des moyennes et des tendances, d'effectuer des pondérations soignées et d'écrire des analyses prudentes - et non « flamboyantes.»

Qc125 n'est pas un « faiseux d'opinion.»

L'objectif ici est d'informer au meilleur de mes capacités. Point.


* * * * * * *

Qc125 sur Twitter: @Qc_125.

Qc125 sur Facebook: @Qc125

Qc125 sur Google+