Noget om konfidensintervaller

megafon
Fra venstre mod højre (på figuren): Procentvis tilslutning til Dansk Folkeparti, Venstre og Socialdemokraterne ifølge meningsmåling.

Forleden skrev jeg om Megafons meningsmåling, der udnævnte Dansk Folkeparti til lige nu at være det parti, der lige nu er størst. Men jeg glemte noget væsentligt: Til ethvert datasæt og enhver tilhørende statistisk hypotese kan man knytte et x%-konfidens-interval, der angiver det interval, hvori den sande værdi for estimaterne med en sandsynlighed på x% vil befinde sig. Den slags en anelse tekniske, men meget vigtige forbehold glemmer medierne ofte – og af og til glemmer vi andre også at spørge om dem.

Det har Niclas Darville (der, så vidt jeg kan se, studerer eller har studeret datalogi på Aarhus Universitet) nu gjort. Han har selv beregnet konfidensintervaller, og resultatet kan man se på hans figur ovenfor; de brune områder viser 95%-konfidensintervallerne. Og her opdager man at vi med 95% sandsynlighed faktisk ikke ved hvilket af partierne Dansk Folkeparti, Venstre og Socialdemokraterne der er størst tilslutning til. Som Niclas skriver:

For at kunne sige (med 95% sandsynlighed) at DF er størst, skulle DFs nederste søjle—dén, der viser den garanterede stemmeandel—rage højere end den (maksimalt) mulige stemmeandel for de to andre partier; det er tydeligvis ikke tilfældet.

Min manglende glæde ved den store tilslutning til Dansk Folkeparti er stadig intakt, men det er en anden snak.