Unsere jüngste Zusammenfassung der Genauigkeit von Umfragen bei amerikanischen Wahlen hat etwas bestätigt, was wir schon seit einer Weile sagen: Die Umfragen sind in Ordnung. Insbesondere Umfragen zu allgemeinen Präsidentschaftswahlen waren in der Vergangenheit recht genau.

Umfragen, die in den letzten 21 Tagen vor den letzten fünf allgemeinen Präsidentschaftswahlen durchgeführt wurden, hatten einen gewichteten durchschnittlichen Fehler von 4,0 Punkten.1 (Wir definieren den Fehler als die absolute Differenz zwischen der in einer Umfrage ermittelten Spanne zwischen den beiden Spitzenkandidaten und dem tatsächlichen Stimmenanteil. Wenn beispielsweise eine Umfrage dem republikanischen Kandidaten einen Vorsprung von 3 Prozentpunkten bescheinigt, der Demokrat aber die Wahl um 2 Punkte gewinnt, hat diese Umfrage einen Fehler von 5 Punkten). Und selbst 2016, als viele den Umfragen vorwarfen, den Sieg von Präsident Trump nicht vorhergesagt zu haben, schnitten die Umfragen innerhalb von 21 Tagen vor der Wahl mit einem gewichteten Durchschnittsfehler von 4,9 Punkten recht gut ab.

Aber in den Vereinigten Staaten bestimmt das Wahlmännerkollegium (Electoral College) den Gewinner der Präsidentschaftswahlen, was bedeutet, dass die Umfragen in den Bundesstaaten wirklich wichtig sind. Und die bundesstaatlichen Umfragen hatten 2016 ein schlechtes Jahr (obwohl sie immer noch ziemlich nahe am langfristigen Durchschnitt liegen). Sie wiesen einen gewichteten Durchschnittsfehler von 5,3 Punkten auf, verglichen mit 3,2 für nationale Umfragen. Außerdem wurden die Demokraten durch diesen Fehler systematisch überschätzt: Staatliche Umfragen hatten eine gewichtete durchschnittliche statistische Verzerrung (eine Kennzahl, die uns sagt, in welche Richtung der Fehler lief) von 3,5 Punkten in Richtung Hillary Clinton.

Mehr anzeigen!

Es ist jedoch nicht ungewöhnlich, dass staatliche Umfragen weniger genau sind als nationale (obwohl sie 2016 stark abwichen). Seit 2000 haben staatliche Umfragen einen gewichteten durchschnittlichen Fehler von 4,3 Punkten, während nationale Umfragen einen gewichteten durchschnittlichen Fehler von 2,9 Punkten aufweisen. Einige Bundesstaaten haben jedoch genauere Umfragen als andere. Dank unseres Datensatzes zur Bewertung der Meinungsforscher können wir quantifizieren, welche Umfragen zu den allgemeinen Präsidentschaftswahlen in den einzelnen Bundesstaaten am genauesten und am ungenauesten sind, was uns helfen kann, die staatlichen Umfragen, die wir später in diesem Jahr erhalten werden, besser zu verstehen.

Unten finden Sie eine Tabelle mit dem gewichteten durchschnittlichen Fehler und der statistischen Verzerrung der Umfragen in den einzelnen Bundesstaaten bei den letzten fünf allgemeinen Präsidentschaftswahlen für die Bundesstaaten, in denen in den letzten 21 Tagen der Kampagne mindestens 15 Umfragen durchgeführt wurden. Dadurch werden Staaten ausgeschlossen, in denen die Stichprobengröße der Umfragen zu gering ist, um aussagekräftige Schlussfolgerungen zu ziehen, und die Liste wird auf die wichtigsten umkämpften Staaten jeder Wahl eingegrenzt (in denen in der Regel ohnehin die meisten Umfragen durchgeführt werden).

Mehr anzeigen!

Das erste, was Ihnen vielleicht auffällt, sind die Krisenherde bei der Wahl 2016 – viele staatliche Umfragen hatten beispielsweise eine statistische Verzerrung in Richtung der Demokraten. In Michigan hatten die Umfragen eine gewichtete durchschnittliche statistische Verzerrung von 4,4 Punkten zugunsten der Demokraten, und in Pennsylvania hatten die Umfragen eine gewichtete durchschnittliche statistische Verzerrung von 4,6 Punkten zugunsten der Demokraten. North Carolina und Ohio werden weniger beachtet, waren aber noch ungenauer.

Aber abgesehen von 2016 zeigt die Tabelle vor allem, wie gut die Umfragen in den Swing-States normalerweise sind. Ihr gewichteter Durchschnittsfehler ist in der Regel nicht so hoch – selbst in den Staaten, die uns 2016 in die Irre geführt haben. Im Jahr 2008 hatten die Umfragen für North Carolina beispielsweise einen gewichteten Durchschnittsfehler von nur 2,4 Punkten. Und während die Umfragen in Ohio 2016 das Ziel verfehlten, lagen sie 2012 genau richtig (1,8 Punkte). Der gewichtete durchschnittliche Fehler der Umfragen in Florida lag in vier der fünf Wahlen unter 4,0. Die Umfragen in Pennsylvania wiesen sehr niedrige gewichtete Durchschnittsfehler von 2,0 (2004) und 2,4 (2008) auf, bevor sie im Jahr 2016 ausfielen. Und die Umfragen in anderen wahrscheinlichen Swing States für 2020, wie Arizona (2,4 im Jahr 2016) und Wisconsin (2,9 im Jahr 2012), wiesen in der Vergangenheit ebenfalls sehr niedrige gewichtete Durchschnittsfehler auf.

Keiner dieser Staaten scheint systematisch schwierig zu befragen zu sein. Genauso wie die Umfragen insgesamt im Laufe der Zeit nicht genauer oder ungenauer werden, schwanken die Fehler und statistischen Verzerrungen der staatlichen Umfragen von Jahr zu Jahr in unvorhersehbarer Weise. Es gibt zwar einige Gründe zur Besorgnis, dass einige Fehler in den bundesstaatlichen Umfragen von 2016, einschließlich der fehlenden Gewichtung nach Bildung, nicht behoben wurden, aber die Genauigkeit der Umfragen eines Bundesstaates bei einer Wahl scheint keinen Einfluss auf ihre Genauigkeit bei der nächsten Wahl zu haben.

Während wir uns also auf die Parlamentswahlen 2020 vorbereiten, können wir sicher sein, dass die Umfragen in den Swing States so vertrauenswürdig sind, wie Umfragen nur sein können – obwohl Umfragen natürlich nicht perfekt sind. Selbst ein Fehler von 3 Punkten kann bei einer knappen Wahl den Unterschied ausmachen.

X

Um zu vermeiden, dass prominente Meinungsforscher zu viel Einfluss bekommen, gewichten wir unseren Durchschnitt nach der Anzahl der von jedem Meinungsforscher durchgeführten Umfragen. Die Gewichtung basiert auf der Quadratwurzel aus der Anzahl der Umfragen, die ein Unternehmen durchgeführt hat. Ein Meinungsforscher, der in einem bestimmten Wahlzyklus 16 Umfragen zu einer bestimmten Art von Wahlen durchgeführt hat, wird beispielsweise viermal so stark gewichtet wie ein Meinungsforscher, der nur eine Umfrage durchgeführt hat. Meinungsforscher, die von FiveThirtyEight ausgeschlossen wurden, weil wir wissen oder vermuten, dass sie Daten gefälscht haben, sind von allen Berechnungen in diesem Artikel ausgeschlossen. Die Grenze für die Einbeziehung einer Umfrage ist, ob sie ein mittleres Datum von 21 Tagen vor der Wahl hatte.

×

Das Beste von FiveThirtyEight, für Sie bereitgestellt.