Valutare i sondaggi elettorali secondo principi statistici: la nostra analisi dei sondaggisti

Quando i risultati elettorali vengono sanciti dal completamento dello spoglio, non sono solo i candidati e le forze politiche in campo a dover trarre il bilancio del lavoro svolto nei mesi precedenti. Per chi come noi e i nostri affezionati utenti si interessa di sondaggi è  altrettanto vitale valutare con rigore quanto le diverse case sondaggistiche siano state efficaci nel prevedere gli equilibri politici determinati dalle urne. Questo non soltanto per “dare un voto” ai sondaggisti, ma anche per stabilire quali sono i più affidabili in ottica futura, e non dovere ogni volta litigare con gli amici usando frasi del tipo “il Pagno è  l’unico di cui ci si possa fidare!”, “La Ghisleri aveva previsto il pareggio del 2006!”, “Tanto Masia non ne azzecca una!” o “i sondaggisti si inventano i numeri!1!”.

Nonostante la questione sia puramente numerica e dovrebbe lasciare poco spazio alle interpretazioni, è  sempre possibile inventarsi un qualche criterio arbitrario che avvantaggi questa o quella casa sondaggistica, per esempio dando più peso alla differenza tra coalizioni o agli scarti assoluti, o usando qualche combinazione strana che porti alla classifica voluta. In un post successivo alle elezioni politiche del 2013, avevamo presentato un ventaglio di possibili criteri mostrando come il ranking dei vari istituti potesse cambiare anche radicalmente a seconda del metodo di valutazione.

Per queste ragioni il team di tecnici di Sondaggi Bidimedia ha deciso di elaborare un metodo di valutazione il più possibile univoco e oggettivo, riducendo al minimo l’arbitrarietà . L’obiettivo è  di fondarsi su principi statistici e probabilistici per arrivare a quantificare il discostamento tra sondaggi e risultati senza dover aggiungere parametri e senza dover effettuare scelte su quali quantità  considerare, come in genere viene fatto.

L’idea su cui si basa è  abbastanza semplice: si assume che le percentuali espresse nei sondaggi rappresentino le probabilità  con cui un elettore che si reca al seggio voterebbe i vari partiti sulla scheda. Per fare un esempio, se un ardito sondaggista stima “Fare per Fermare il Declino” al 7%, significa che ogni cittadino che entra nella cabina elettorale ha il 7% di probabilità  di votare la lista di Oscar Giannino. Se la previsione è  corretta e il numero di elettori molto grande, la percentuale finale di “Fare” sarà  molto vicina al 7%.

Questa ipotesi permette di considerare il voto nel suo complesso come un processo stocastico e adottare strumenti statistici standard per valutare la discrepanza tra previsione e risultati elettorali. In pratica, si tratta di quantificare quanto le percentuali ottenute alle urne siano compatibili con delle normali fluttuazioni statistiche rispetto alle percentuali fornite da un sondaggio, usando quella che in gergo si chiama “funzione di verosimiglianza”. Il lettore interessato agli aspetti matematici può leggere una spiegazione più tecnica nel pararagrafo successivo, qui invece ci limitiamo a riportare le classifiche dei migliori sondaggisti relative alle politiche del 2013 e alle europee del 2009, determinate applicando il nuovo metodo.

politiche2013_classifica_sondaggi

La classifica relativa alle politiche premia la triade SWG, Demopolis e Tecnè (che distanzia di pochissimo IPR). Notiamo che in generale le prime posizioni sono consistenti con il metodo degli “errori pesati” che avevamo utilizzato nella nostra precedente analisi. Ci sono differenze molto marcate invece con i criteri del cumulo degli errori relativi o della stima differenziale, che a nostro modo di vedere sono i meno giustificati teoricamente: la distanza tra le prime due coalizioni ha senza dubbio grande significato politico, ma statisticamente non ha niente di speciale rispetto agli altri distacchi, e sommare gli scarti relativi tra di loro assegna arbitrariamente un peso maggiore ai partiti più piccoli.
Per quanto riguarda le europee del 2009, i migliori sono stati, in ordine, Ispo, Termometro Politico e Crespi Ricerche.

europee2009_classifica_sondaggi

NOTA: Ai fini del calcolo abbiamo considerato le coalizioni nel caso delle politiche e i singoli partiti nel caso delle europee del 2009. In entrambi i casi abbiamo raggruppato le formazioni sotto il 3% nella voce “altri”, dato che molte case non rilevano i partiti minori e sono comunque misure meno affidabili. La classifica non cambia significativamente al variare di questa soglia.

 

Funzione di verosimiglianza per sondaggi elettorali

Come spiegato sopra, assumiamo che i sondaggi elettorali esprimano la probabilità  dei singoli partiti (o coalizioni) di essere votati. Il nostro obiettivo è  definire la “funzione di verosimiglianza”, ovvero la probabilità  che i risultati elettorali siano una realizzazione delle previsioni sondaggistiche in senso probabilistico.

Se il partito  i-esimo viene votato da n_i elettori, e dette p_i le relative percentuali (intese come probabilità ) espresse dal sondaggio, la funzione di verosimiglianza si può scrivere come

 L(\{ p_i\} |\{ n_i\} )=\prod p_i^{n_i}

dove abbiamo considerato l’elezione come una combinazione di eventi indipendenti, cioè  il voto dei singoli elettori. Qui \prod indica la “produttoria”, ovvero la moltiplicazione di tutti i p_i^{n_i} di ogni partito. Il lettore più attento farà  notare che questa formula non è  esatta, perchè  assume che gli elettori siano “distinguibili”, mentre i sondaggi quantificano il numero di voti ma non specificano, ovviamente,  chi li esprime. L’espressione dovrebbe essere moltiplicata per il numero di modi in cui gli elettori si possono ripartire in sottoinsiemi con cardinalità  \{n_i\}, quella che in gergo si chiama funzione di partizione.  Questo numero si può calcolare con metodi combinatori, ma corrisponde a un semplice coefficiente moltiplicativo W che si elide nel considerare i rapporti di verosimiglianza tra diversi sondaggi.

Seguendo l’abitudine di considerare il logaritmo di L che trasforma i prodotti in somme, e con pochi passaggi algebrici, si ottiene

\ln L(\{ p_i\} |\{ n_i\} )=n_e\sum_i\bar{p}_i\ln p_i+\ln W

dove n_e è  il numero di elettori totale, \bar{p}_i=n_i/n_{e} la frazione di voti ottenuta dal partito i alle elezioni e \ln W la costante derivante dalla funzione di partizione. Ai fini della classifica, sia la costante  W che la rinormalizzazione n_{e} sono ininfluenti (la seconda amplifica la distanza tra le posizioni). Per questo motivo lo stimatore finale che utilizziamo è

\Delta \ln L = \sum_i \bar{p}_i \ln \bar{p}_i- \sum_i \bar{p}_i \ln{p_i} = \sum_i \bar{p}_i \ln\frac{\bar{p}_i}{p_i}

che eguaglia zero quando il sondaggio è  identico ai risultati.