samedi 27 mai 2017

Réduire le bruit et discerner le signal

Dans son excellent livre « The Signal And The Noise », Nate Silver (le créateur de FiveThirtyEight) discute en long et en large de l'importance de savoir distinguer l'information (signal) au travers tout le « bruit » (noise) des données brutes analysées en politique, dans les sports et même en science de la nature. Il explique à quel point les sondages politiques peuvent être bruyants... et à quel point bien des chroniqueurs et commentateurs peuvent se faire prendre au piège en donnant trop d'importance à des données bruyantes.

Évidemment, le modèle Qc125 a été construit avec cet aspect important comme axiome de base: hors campagne et en l'absence d'évènements politiques majeurs qui viendraient affecter l'opinion publique, les appuis aux différents partis politiques ne varient 1) que très peu, et 2) qu'excessivement lentement.

Discerner le signal au travers du bruit, c'est l'objectif principal du modèle Qc125. Dans un billet intitulé « Leçon de sondages 101 », j'avais démontré à quel point des sondages tirés d'une même banque de données pouvaient varier d'un à l'autre.

En effet, ce que nous mesurions était ceci:


...alors qu'en réalité, le signal était demeuré constant:
Rouges 32
Bleus 28
Verts 24
Orangés 12

Le graphique était donc bruyant. Ce n'est qu'en calculant des moyennes pondérées, en repérant des tendances, en amortissant le bruit qu'il est possible de discerner le signal.

Nous pouvons même utiliser une analogie de physique classique: les sondages oscillent naturellement avec des fréquences et amplitudes variables comme une masse suspendue à plusieurs ressorts, mais le modèle « amortit » ces oscillations, comme la suspension d'une voiture amortit le choc des nids de poules.

Hypothétiquement, si un sondage devait mesurer un bond de 10% pour un parti dans l'espace d'un mois, le modèle interprétera ce bond comme étant excessivement bruyant. Attention: le modèle n'ignorerait pas ce sondage, mais il l'amortirait.

Considérez la figure suivante:


Il s'agit des sondages Léger, CROP et Mainstreet sur les intentions de vote des électeurs québécois depuis l'automne dernier. En superposant ces données, on ne peut que conclure que le système est bruyant, n'est-ce pas? Les chiffres de QS sont probablement les plus constants, mais ceux des autres partis? Il faut tenter de discerner le signal au travers du bruit.

Voici les projections Qc125 du vote populaire au cours de la même période:



Remarquez-vous à quel point les courbes sont amorties? Clairement, le modèle permet de considérablement réduire le bruit des données.

Évidemment, ce système n'est pas sans faille non plus. Par exemple, si un évènement majeur devait éclater au grand jour et que les sondages qui suivent bougeaient tous dans la même direction, il faudrait alors que le modèle s'ajuste plus rapidement.

Par exemple, pour reprendre un sketch de François Pérusse: si un ministre pacté se fait prendre dans un sauna avec une prostituée, douze mineures, deux évadés de prison, vingt mitraillettes de contrebande et trois livres de coke, les chiffres pourraient changer plus rapidement que ce que le modèle pourrait interpréter.

[Je repense à ce sketch et je ris encore. Merci, M. Pérusse.]

D'ailleurs, voici comment se compare la dernière projection Qc125 avec les sondages Léger et Mainstreet de mai 2017:



À l'exception des données pour la CAQ, ces deux sondages donnaient des chiffres remarquablement similaires: les Libéraux à 31-32%, soit leur niveau normal depuis près d'un an; le PQ juste sous son score de 2014 et QS en hausse depuis l'arrivée de G.Nadeau-Dubois.

Pour les chiffres de la CAQ, remarquez à quel point la donnée de Maintsreet (la CAQ en tête à 32%) a été amortie par le modèle. Attention: ça ne veut pas dire que Mainstreet a nécessairement tort, mais cette donnée sortait tellement de l'ordinaire que seuls les sondages de juin pourront confirmer ou infirmer si la CAQ est vraiment en train de grimper aux alentours de 30%.

Qu'en est-il de la projection de sièges?



Les Libéraux, après un petit « boost » en mars, retournent à leur niveau de l'hiver dernier. En glissant dans les intentions de vote d'environ 4% depuis l'hiver, la projection péquiste a chuté dramatiquement et est tombée à 30 sièges, soit le total qu'a obtenu ce parti à l'élection de 2014. Cette baisse péquiste concorde évidemment avec une montée abrupte de la CAQ et une hausse modeste de QS.


Dans les prochains jours, j'analyserai les conditions gagnantes pour chaque parti. La projection Qc125 d'avril donnait les Libéraux gagnants dans 98,8% des simulations, alors il y avait peu d'intérêt à décortiquer ce genre de données. Toutefois, la projection de mai contient 2 403 simulations (sur 10 000) où la CAQ remporte l'élection et 371 où le PQ est le vainqueur.

C'est donc suffisamment de données pour des heures et des heures de plaisir et d'analyse.

Sur ce, bon samedi à tous et toutes!

Go PK.


* * * * * * *

Qc125 sur Twitter: @Qc_125.

Qc125 sur Facebook: @Qc125

Qc125 sur Google+