vendredi 25 août 2017

Quel est le lien entre les chances de gagner et la projection du vote populaire?

Un petit avertissement est de mise en commençant ce billet: son contenu est davantage mathématique que politique.

(Je me demande combien de lecteurs j'ai perdus après cette première phrase...?)

Revenez!

Supposons qu'un candidat X soit projeté avec une avance de, par exemple, 3% sur son rival plus proche rival. Quelles seraient alors ses probabilités de victoire après 10 000 simulations d'élections de cette circonscription?

Est-ce que le fait d'être dans une course à deux ou une course à trois influence ces probabilités? C'est ce que j'ai voulu tester.

Pour ce faire, j'ai entré des « valeurs théoriques » dans le modèle. Dans cette simulation, toutes les circonscriptions possèdent la même pondération en vote populaire et, surtout, elles sont complètement indépendantes les unes des autres.

[Ce qui n'est évidemment pas le cas dans nos élections. Il y a historiquement une forte corrélation dans le mouvement de l'électorat non seulement parmi des circonscriptions voisines, mais à travers tout le Québec.]

J'ai donc d'abord effectué des simulations de circonscriptions où l'écart moyen entre le meneur et son plus proche rival est de 0,1%, 0,2%, 0,3%... et ainsi de suite. Sur l'axe horizontal, je trace l'écart entre le meneur et le candidat en deuxième place. Sur l'axe vertical, j'indique les probabilités de victoires du meneur.

Voici donc ce que ça donne pour une course à deux (les deux premiers candidats remportent en moyenne 85% du vote populaire et le 15% restant est accordé à des tiers partis):



Nous pouvons remarquer que, à près de 0% d'écart, les chances de gagner frôlent le 50% - ce qui était attendu. Mais cette relation, clairement non linéaire, est-elle réaliste?

Regardons ce graphique de plus près en utilisant quelques indicateurs:



Regardons la première boîte de gauche: si un candidat dans une course à deux est projeté avec une avance moyenne de 4%, alors ses chances de gagner avoisineront 70% - soit la limite choisie par le modèle Qc125 comme étant le seuil des comtés pivots.

Avec une avance moyenne projetée de 6% (boîte du milieu), les chances de gagner du meneur grimpent à 80% - soit 4 fois sur 5.

N'oubliez pas qu'il ne s'agit pas ici d'une avance moyenne de 6% au niveau national, mais bien au sein d'une seule circonscription où la marge d'erreur est, naturellement, bien plus importante. Un sondage, même effectué avec une méthodologie soignée, possède une marge d'erreur bien plus importante lorsqu'on le découpe en sous-échantillons!

Selon la taille des sous-échantillons, cette marge d'erreur peut facilement grimper jusqu'à 5% et même 6%... et ce, pour chaque valeur!

Regardez le graphique à nouveau. Dans la troisième boîte, le meneur possède une avance moyenne de 9% et ses probabilités de victoires sont de 90%. Et oui, même avec une avance moyenne projetée de 9% sur son rival, un candidat perd son élection une fois sur dix selon le modèle Qc125.

Toutefois, de moins en moins de circonscriptions sont des courses à deux. Qu'arrive-t-il lorsqu'un troisième candidat vient brouiller les cartes?

J'ai recommencé la simulation, mais cette fois avec trois candidats qui remportent ensemble entre 90% et 95% du vote populaire (les 5% à 10% restants vont à un tiers parti). Je fais augmenter l'avance du meneur graduellement aux dépens de ces deux rivaux et voici ce que ça donne:



Au premier coup d'oeil, les courbes semblent similaires - et elles le sont. À près de 0% d'écart, les chances de gagner du meneur dépassent à peine une chance sur trois (33%). Avec environ 1,5% d'avance, le meneur d'une course à trois atteint des probabilités de victoire de 50%.

Regardons ce même graphique avec nos indicateurs :


Curieusement, avec 4% d'avance (première boîte), les chances de gagner atteignent près de 70% - soit environ les mêmes probabilités que lors d'une course à deux. Toutefois, nous pouvons remarquer que les probabilités de victoires sont un peu plus élevées à 6% et 9% d'avance dans une course à trois.

Superposons les deux courbes pour mieux observer leurs différences:



Avec une faible avance sur son plus proche rival, les chances de gagner du meneur sont meilleures dans une course à deux (points rouges) que dans une course à trois (points bleus).

Mais lorsque l'avance du meneur atteint ~5%, ses chances de gagner sont supérieures dans une course à trois - voici donc l'effet de la division du vote!



Évidemment, l'objectif principal de cet exercice n'était pas seulement de comparer les courses à deux et à trois, mais de comparer les données de la dernière projection Qc125 (18 août 2017) avec des données théoriques (et artificielles). La dernière projection contient en effet un important mélange de course à deux, à trois et même parfois à «trois et demi».

(Un bon exemple d'une course à «trois et demi», et presque quatre, est la circonscription de Taschereau à Québec. Regardez la projection actuelle: l'intervalle de confiance de 95% de la CAQ en quatrième place croise celui du PQ en première place!)

Voici donc les données de la dernière projection Qc125:



Les points semblent suivre les courbes théoriques présentées plus haut dans ce billet, même s'il y a clairement plus de bruit dans ces vraies données qu'avec des valeurs théoriques.

Comparons maintenant les données réelles (points verts) avec les courbes théoriques (points rouges et bleus):



Je regarde ce graphique et je suis à la fois satisfait et méfiant.

Satisfait, parce qu'il est indéniable que les données suivent généralement bien les courbes théoriques, ce qui indique que les calculs de probabilité sont réalistes et, à l'intérieur d'une certaine incertitude, tout à fait valables.

Méfiant, parce que je remarque - à quelques exceptions près - que les points verts se trouvent majoritairement juste au-dessus des courbes théoriques, ce qui signifie que le modèle est un peu trop « confiant » du résultat du vainqueur. En moyenne, les probabilités de victoires calculées par le modèle sont donc un peu plus élevées que ce qu'elles devaient être en théorie. L'écart est faible toutefois.

Pourquoi est-ce ainsi?

Je ne le sais pas, mais ma première hypothèse est que, comme mentionné plus haut, les données théoriques sont indépendantes les unes des autres, alors que le vrai modèle contient des algorithmes qui créent une corrélation entre des circonscriptions.

Prenez par exemple la projection pour les comtés lavallois de Sainte-Rose et Laval-des-Rapides:




Le PLQ a balayé Laval en 2014, mais ces deux comtés sont maintenant des circonscriptions pivots (le PQ avait gagné ces deux circonscriptions en 2012).

Le modèle Qc125 calcule qu'il y a une forte corrélation dans le mouvement de l'électorat de ces deux comtés. Le soir des élections, si vous voyez que le PLQ est en train de perdre Laval-des-Rapides, c'est qu'il est probablement aussi en train de perdre Sainte-Rose.

Ces corrélations entre comtés ajoutent une dose de certitude aux probabilités de victoire - ce que les données théoriques ne contiennent pas.

Je vais devoir méditer là-dessus.


Sur ce, je souhaite un bon vendredi et une excellente fin de semaine à mes lecteurs et lectrices!




Philippe J. Fournier est le créateur de Qc125. Il est professeur de physique et d'astronomie au Cégep de Saint-Laurent à Montréal. Pour toute information ou pour une demande d'entrevue médiatique, écrivez à info@Qc125.com.

Philippe J. Fournier is the creator of Qc125. He teaches physics and astronomy at Cégep de Saint-Laurent in Montreal. For information or media request, please write to info@Qc125.com.

Twitter: @Qc_125

Facebook: @Qc125