#FDPleaks: Hype und Hybris im Datenwahlkampf

In diesem Blogpost zeige ich, welche Daten die FDP im Wahlkampf verwendet und wie Microtargeting bei der Bundestagswahl bereits eingesetzt wird. Ich zeige auch, dass die verwendeten Methoden vermutlich zu einer falschen Einschätzung der Wähler führt.

„Microtargeting ist in Deutschland nicht möglich.“, ist eine weitverbreitete Auffassung. Der Datenschutz lässt es nicht zu, die Daten sind gar nicht vorhanden, die Parteien haben nicht die entsprechenden Kompetenzen und finanziellen Möglichkeiten, sind die üblichen Argumente. Wir haben an anderer Stelle bereits gezeigt, dass sich allein mit Facebook-Daten ein ordentliches Microtargeting betreiben lässt:

Haustürwahlkampf: Microtargeting in netter

Keine Partei wird derzeit offen sagen, dass sie Microtargeting betreibt. Sehr offensiv wird allerdings der Haustürwahlkampf beworben. Was so schön analog klingt, ist in Wirklichkeit digitales Microtargeting: Die Parteien versuchen durch Datenanalyse den Wohnort von potentiellen Wählern zu ermitteln.

#FDPleaks

Was kaum jemand weiß, ist, welche Daten die Parteien bereits für Microtargeting nutzen. Die FDP war so freundlich, das Datenportal, das sie benutzt, online zugänglich zu machen. Dieses Angebot richtet sich an alle Wahlkampfhelfer, die Zugangsdaten waren aber bis vor kurzem öffentlich, wenn man bei Google nach „daten.fdp.de“ gesucht hat, da die FDP Niedersachsen eine erweiterte Version des "Kampagnenkatalogs" der FDP ins Netz stellt.

Wer richtig googelt, bekam die Zugangsdaten

Daten auf Haushaltsebene

Was man auf dem Portal findet, sieht ziemlich verstörend aus. In einer Karte kann man sich (in den großen Städten) so weit reinzoomen, dass man für einzelne Häuser angezeigt bekommt, ob hier mit einer Wahrscheinlichkeit von 60% oder 80% FDP-Wähler sind.

FDPMaps - Übersicht

FDPMaps - Zoom 1

FDPMaps - Zoom 2

Zusätzlich lassen sich eine Vielzahl von soziodemografische Daten und Wahlergebnissen auf der Ebene von Wahlkreisen anzeigen und als csv-Datei herunterladen.

Beispiel 1: Sozioökonomische Daten

Beispiel 2

Am spannendsten sind die Daten auf Haushaltsebene. Aus der Dokumentation erfahren wir, dass immer sechs Haushalte zu einer Einheit zusammengefasst wurden. „Die Methode steht mit dem Bundesdatenschutzgesetz in Einklang. So werden immer mindestens sechs Gebäude gebündelt, um eine eindeutige Personenzuordnung zu vermeiden.“ (FAQ https://daten.fdp.de/)

Aber was hat die FDP da eigentlich berechnet? Die Dokumentation gibt ein paar Antworten: „Eine neue Funktion in „FDPMaps 2.0“ ist die Visualisierung von FDP-Wahlwahrscheinlichkeiten größer 60 Prozent und größer 80 Prozent. Diese basieren auf den Affinitäten des Instituts dimap und zeigen Ihnen gebäudegenau an, auf wie viele und welche Gebäude die ausgewählte Wahlwahrscheinlichkeit zutrifft und wo FDP-Wähler vermutet werden können. In der Methode werden neben historischen Wahldaten auch sozio-demografische Variablen und Variablen zum Wohnumfeld berücksichtigt. … Die Wahlwahrscheinlichkeiten werden mit Regressionsanalysen auf Gebäudeebene von dimap berechnet. Die Ergebnisse zeigen, welche Gebäude und somit welche Haushalte aufgrund ihrer Struktur ein besonderes Interesse an einer Stimmabgabe für die Freien Demokraten haben könnten. Dafür werden in einem ersten Schritt soziodemografische Strukturdaten und vergangene Wahlergebnisse eines Stimmbezirks ermittelt, die besonders stark mit dem FDP-Ergebnis korrelieren. Im zweiten Schritt werden die Häuser eines Stimmbezirks identifiziert, die diese Strukturmerkmale weitestgehend aufweisen, denen dann eine individuelle „Partei-Affinität“ zugewiesen wird.“ (FAQ https://daten.fdp.de/)

Plausibilitätstest München

Was bedeutet eine Wahlwahrscheinlichkeit von 60 und 80 Prozent? Nehmen wir das Beispiel München. Die FDP Die FDP hatte 2009 ein sehr gutes Ergebnis mit bundesweit 14.6%. 2013 dann ein sehr schlechtes mit 4.8%. Im Durchschnitt also 9.7%. München hat 832.810 Haushalte. Zu je sechs zusammengefasst ergibt 138.801 Einheiten. Die FDP hat Geodaten von 25.487 Haushaltseinheiten in München, von denen sie meint, dass 60% die FDP wählen und noch einmal 2.749 Haushalte, von denen 80% die FDP wählen sollen, laut der Annahme des Modells. Wir können also rechnen: 25.487*0.6 + 2.749*0.8=17.491. Das sind bereits 13% aller Haushaltseinheiten. Das bedeutet, wenn die Annahmen stimmen würden, würde die FDP in München auf 13% kommen, ohne das irgendeiner der nichterfassten Haushalte FDP wählt. Die Wahrscheinlichkeit der anderen Haushaltseinheiten wird aber realistischer Weise nicht bei Null liegen. Das Modell liefert demnach sehr unrealistische Einschätzungen und übersteht keinen Plausibilitätstest.

FDP Maps: München, Max-Vorstadt

Vorhersagen des Wahlverhaltens aus Wahldaten und soziodemografischen Faktoren

Das Problem ist, dass die FDP (bzw. das Institut dimap, das diese Daten für die FDP aufbereitet hat) aus historischen Daten und wenigen demographischen Merkmalen auf das Wahlverhalten schließen. Für jeden Wahlbezirk gibt es Wahlergebnisse (z. B. von den Bundestagswahlen 2009 und 2013). Offenbar wurden diese Daten mit demographischen Daten von den regionalen Statistikämtern kombiniert, um dann mit einer Regressionsanalysen herauszufinden, bei welchen Faktoren es eine Korrelation mit dem Wahlerfolg gibt. Dabei gibt es aber zwei Probleme:

1. Es liegen (hoffe ich zumindest!) keine Daten auf der Haushaltsebene vor, die auf das Wahlverhalten schließen lassen. Daher muss von einer höheren Ebene (Wahlbezirke) auf die Haushalte geschlossen werden. Ein Faktor, der für das Wahlergebnis auf Bezirksebene relevant ist, muss aber nicht auf Haushaltsebene relevant sein. Ein Beispiel: Wenn es eine Korrelation zwischen hohem Durchschnittseinkommen und FDP-Erfolg gibt, heißt das nicht automatisch, dass mit steigendem Haushaltseinkommen auch die Wahlwahrscheinlichkeit der FDP zunimmt. Vielleicht wählen Haushalte mit einem Jahreseinkommen über 80.000 Euro eher die FDP, aber Haushalte mit einem Einkommen über 150.000 eher die CDU. Da es keine Daten über das individuelle Wahlverhalten gibt, kann dies mit statistischen Mitteln eigentlich nicht überprüft werden und die Vorhersagen des Modells lassen sich nicht mehr überpüfen.

2. Die Wahldaten sind vier Jahre alt. Wer sagt, dass heute noch die gleichen Korrelationen bestehen und dass die demographische Struktur sich nicht verändert hat. Hierzu eine Bebilderung:

Für die einzelnen Bundesländer kann man durchaus eine Vorhersage der FDP-Ergebnisse auf Wahlbezirksebene durchführen. Die Daten, die die FDP nutzt, geben das her.

Lineare Regression 2009/2013

Die Graphik zeigt die Ergebnisse eine linearen Regression und zwar die echten Werte (observed) gegen die vorhergesagten Werte (predicted). Zunächst ist nur die blauen Wolke von Interesse. Das sind die Ergebnisse für die FDP 2009. Wären alle Vorhersagen richtig, lägen alle Punkte auf der schwarzen Linie. Das ist zwar nicht der Fall, das Modell fängt aber eindeutig starke Korrelationen zwischen den soziodemografischen Daten und dem Wahlerfolg ein. Im Prinzip ist ein solcher Ansatz also tatsächlich möglich.

Aber: Wenn das Modell, dass auf den Daten von 2009 trainiert wurde, für 2013 verwendet wird, dann ist das Ergebnis ziemlich katastrophal. Das sieht man an der roten Wolke. Nicht nur wurde jeder Wahlbezirk zu hoch eingeschätzt. Die FDP war 2013 halt viel schlechter als 2009. Problematischer ist, dass sich die Bereiche, in denen das Modell gut funktioniert, deutlich verschieben. Dies zeigen die farbigen Linien: 2009 wurden starke Bezirke eher zu schwach eingeschätzt (die orange Linie hat eine Steigung kleiner 1). 2013 werden aber umgekehrt schwache Bezirke zu stark und starke Bezirke zu schwach eingeschätzt. Die soziodemografischen Faktoren, die vor vier Jahren gegolten haben, gelten offenbar so nicht mehr.

Fazit

Das Beispiel der FDP zeigt, dass Microtargeting im US-amerikanischen Stil bei uns NOCH an eine Grenze stößt. Die Parteien setzen zwar auf Datenanalysen, diese liefern ihnen aber gar nicht die Objektivität, die sie sich davon erhoffen. Gleichzeitig wird aber auch deutlich, dass die einzige Grenze nur die Qualität der Daten und der Modelle ist. Lägen z. B. Daten vor, aus denen man auf die aktuelle Sympathie in den Haushalten schließen könnte (wie in den USA durch die Registrierung bei den Vorwahlen, in Deutschland aber z. B. über Social Media Analysen oder über die Auswertung von Apps wie Connect17 von der CDU durchaus auch möglich), dann würden die Daten auf Haushaltsebene vermutlich sehr gut für Microtargeting funktionieren.

Perceived Voter Model

Aus den USA wissen wir, dass Parteien zum Teil Modelle verwenden, die auf objektiv falschen Annahmen beruhen. Sie machen dann einen Wahlkampf für einen Wähler, den sie in den Daten wahrnehmen, der aber gar nicht existiert. Das heißt nicht notwendig, dass die Strategie nicht erfolgreich erscheint: Wenn die FDP jetzt an den Türen vermehrt klingelt, die sie identifiziert haben, kann sich allein durch diese Aktivität natürlich ein positiver Effekt einstellen und wir haben eine self-fulfilling-prophecy. Aber: Richtig effektiv ist das nicht. Wenn die Annahme stimmt, dass es Sinn ergibt, potentielle FDP-Wähler an der Haustür anzusprechen, dann wäre ein evidenzbasiertes Modell viel besser… und dieses dimap-Modell ist nicht sehr überzeugend.

Man erfährt übrigens noch einiges darüber, wie die FDP selbst ihre Wähler einschätzt: Die Hauptzielgruppe sind „Haushalte mit überdurchschnittliches Einkommen (Nettohaushaltseinkommen ab 3.800 Euro aufwärts), ab 55 Jahren, überdurchschnittlich oft Selbständige/Freiberufler, hohes Bildungsniveau, lesen häufiger als der Bevölkerungsschnitt Magazine und Zeitungen aus dem Bereich Wirtschaft (Handelsblatt, Wirtschaftswoche) und Nachrichtenmagazine, Interesse an Anlageprodukten (Aktien, Fonds usw.), machen gerne Sporturlaub und Wellnessurlaub, Sportliche Aktivitäten: überdurchschnittlich häufig Golf und Segeln, Interesse an Delikatessen, Wein, Kunst, Antiquitäten, haben ein starkes Markenbewusstsein“ (Ergänzung im Kampagnenkatalog der FDP Niedersachsen).

Simon Hegelich, August 2017

Kommentare

Fragezeichen18. August 2017 um 10:27
Ich glaube, Ihr interpretiert die 60, bzw. 80% falsch. Logischer wäre es, wenn sie aussagen würden, dass sich mit 60% Wahrscheinlichkeit mindestens ein FDP Wähler in der Haushaltseinheit befindet.
AntwortenLöschen
Antworten
Simon Hegelich18. August 2017 um 11:01
Die Wahrscheinlichkeit, dass einer von 6 Haushalten FDP wählt wäre bei einer Durchschnittswahrscheinlichkeit von 10% schon 53%. Dann müssten etwa 50% der Haushalte identifiziert werden. Aber es ist nicht ganz eindeutig, was dimap da gemacht hat. Vielleicht erklären sie es ja...
AntwortenLöschen
Antworten
Jan Filter19. August 2017 um 08:26
"Richtig effektiv" ist so ein kompletter Wahlkampf nicht. Was der Autor wüsste, wenn er jemals einen geplant und durchgeführt hätte.

Genau dazu dient so eine Karte - die ja auch nix Neues ist. Ich bin seit 17 Jahren Mitglied der FDP und genau so lange höre ich immer wieder die Empfehlung, den Wahlkampf dort zu konzentrieren, wo bei den letzten Wahlen die besten Ergebnisse vorlagen. Schlicht und ergreifend, weil es dort mit einer guten Wahrscheinlichkeit auch dieses Mal wieder die besten Ergebnisse geben wird.

Warum macht man das? Weil man eben nur sehr begrenzte Ressourcen hat. Wir machen zum Beispiel in meiner sehr ausgedehnten Kleinstadt mit so ca. 5 aktiven Leuten Wahlkampf. Es ist völlig ausgeschlossen, dass wir fünf es auch nur ansatzweise schaffen, jeden einzelnen Briefkasten in der 34.000-Einwohner-Stadt und den 13 Dörfern, die ihr angegliedert und die somit ebenfalls Teil des Ortsverbandes sind, mit einem Flyer beglücken werden. Wenn wir wirklich gut sind, alle ordentlich viel Zeit haben und uns keine sinnvolleren Aktionen einfallen, schaffen wir vielleicht so 5% aller Haushalte. Also gucken wir, in welchen Ortsteilen wir in der Vergangenheit überdurchschnittlich gut waren und konzentrieren uns darauf.

Nun war 2013 ein Ausnahmejahr für die FDP, die Daten von dort sind sowieso nur sehr begrenzt verwertbar. Tendenziell kann ich aber zum Beispiel in meinem Wohnort, der nur einen einzigen Wahlbezirk besitzt, feststellen, dass wir hier eben sehr wohl bei jeder Wahl über dem Durchschnitt liegen.

Die Karte versucht diesen Eindruck einfach nur eine Stufe wissenschaftlicher aufzubereiten - mehr nicht. Uns ist allen klar, dass das im Großen und Ganzen die übliche Kaffeesatzleserei ist, an der auch normale Wahlumfragen immer wieder kranken. Es ist eine kleine Hilfe und sonst gar nichts. Und es ist eigentlich auch jedem klar, weswegen ich diesen etwas reißerischen Hashtag #fdpleaks auch nicht so wirklich nachvollziehen kann. Solche Methoden sind nicht wirklich jemals ein Geheimnis gewesen und an sich ja auch völlig harmlos.

Wenn man richtig Manpower hat, macht man es wie die CDU. Die klingelt an mindestens hunderttausenden Türen in ganz Deutschland und notiert in ihrer App, hinter welcher Tür welche Meinung zur CDU angetroffen wird, wie alt die Leute ungefähr sind und welches Geschlecht sie haben. Dort geht die Analyse also sehr viel mehr ins Detail und dort bekommt man dann nach ein paar Jahren (das Ganze wird nicht nur bei Bundestagswahlen genutzt) eine wirklich bis in jeden Haushalt hinein aufgelöste Karte. So etwas wird für kleinere Parteien wohl nur in sehr, sehr engagierten Ortsverbänden möglich sein.
AntwortenLöschen
Antworten
Onkel Emma21. August 2017 um 10:54
Zum Thema “Plausibilitätstest München“

Ich verstehe nicht ganz, warum zum Abgleich der Plausibilität der Durschnitt der bundesweiten Ergebnisse von 2009 und 2013 genommen werden, statt dem Durchschnitt der Wahlergebnisse auf Ebene der Stadt München. Dort hatte die FDP 2009 17,6 und 2013 7,7 Prozent. Das macht im Schnitt 12,7 Prozent, womit die FDP in München deutlich über dem Bundesergebnis lag (die Reichen Münchens lassen grüßen). Somit würde der Plausibilitätstest, der 13 Prozent Wahlwahrscheinlichkeit angibt, aber erfolgreich.

Können Sie mir erklären, warum Sie den Bundesdurchschnitt zum Abgleich verwenden?
AntwortenLöschen
Antworten
Simon Hegelich1. September 2017 um 11:11
Das Argument ist, dass die FDP nach der Berechnung alleine mit den markierten Haushalten auf 13% käme, also die Wahrscheinlichkeit bei allen nichtmarkierten Haushalten 0% wäre und das (nicht die 13%) ist nicht plausibel.
AntwortenLöschen
Antworten

Kommentar hinzufügen

Political Data Science

Dieses Blog durchsuchen