Veapiir – mis see on?

Veapiir mis see on? Andmemasin seletab!
Sageli, kui räägitakse erinevatest uuringutest, viidatakse sealjuures veapiirile. Teinekord öeldakse ka, et tulemus või tulemuse muutus (või ka erinevus mingist muust numbrist) ei ole statistiliselt oluline. Mida see tegelikult tähendab? Kuidas seda mõista?
Lühidalt – mis see on?
Kui katsuda seda algatuseks kuidagi ühte lausesse kokku võtta, siis võiks seda selgitada umbes nõnda: veapiir näitab, kui palju võib uuringutulemus reaalses elus tegelikult kõikuda, kui soovime tulemusi üldistada (laiendada) kogu meid huvitavale (siht)grupile. Ehk siis näiteks – kui uuringufirma ütleb, et uuringute järgi toetab 25% võimalikest valijatest eelolevatel valimistel Keskerakonda (umbes nagu mina tegin siin), siis kui suur see toetus tegelikult PÄRIS ELUS on? Ehk siis veel teisisõnu – veapiir näitab meie eksimisvõimalust, kui liigume uuringule vastanute kontekstist laiema grupi kohta väidete tegemisele.
Kui suur on veapiir tavaliselt?
Võimaliku vea suurus sõltub mitmetest nüanssidest, millest kõige olulisem on reeglina valimi suurus. Täpsemalt räägime sellest allpool. Kui räägime tüüpiliselt avalikus ruumis kajastamist leidvatest uuringutulemustest, siis on üsna reeglipärane, et tulemused on saadud mõne Omnibuss-tüüpi elanikkonna uuringu vahendusel, kus on küsitletud ligikaudu 1 000 vastajat. Selliste uuringute puhul on kõnealuse vea suurus maksimaalselt ~3.1%.
Valimi suurus ja vastuse proportsioon?
On üsna tavapärane, et uuringufirma lisab oma uuringuraportisse nn veapiiride tabeli, millest lihtsustatud näide on toodud siinjuures pildil. Veapiiride tabeli alusel saab kiirelt leida ligikaudse võimaliku standardvea piiri ehk võimaliku eksimise tõenäosuse meid huvitaval juhtumil. Standardvea arvutuses on neli komponenti. A – üldkogumi suurus; B – meie talutav eksimispiir (usaldusintervall, usaldusnivoo); C – vastajate hulk (valimi suurus) ja D – meid huvitava vastuse proportsioon. Komponent A omab vea suurusele seejuures võrdlemisi marginaalset mõju. Komponendi B puhul kasutatakse sotsiaalteaduslike uuringute puhul reeglina 95% usaldusnivood (väiksemat eksimist 99% ja enam kasutatakse näiteks meditsiiniliste uuringute puhul). Komponendid C ja D ehk valimi suurus ja vastuse proportsioon on muutujad, mis meid antud juhul kõige enam huvitavad.
Eelpool tõin näite, kus uuringu tulemus näitas 25% suurust potentsiaalsete valijate toetust Keskerakonnale. Vastuse andis nimetatud uuringus ligikaudu 700 vastajat. Proportsiooni 25% ning 700 vastaja puhul on standardvea piir +-3.21%. Seega, kui soovime tulemust üldistada, võiksime väita, et “päris elus” jääb erakonna toetus 95% tõenäosusega vahemikku 22-28%. See on ka vahemik, millega peame reeglina arvestama võimalike järelduste ja väidete tegemisel näiteks olukordades, kus jutuks tuleb mitme erakonna tulemuste omavaheline võrdlemine või ka sama erakonna tulemuste muutus ajas.
- Veapiiride tabel. Arvestatud üldkogumi suurusega 1 000 000.
Mida pidada silmas valimi suuruse planeerimisel?
Kui olete plaanimas mõnda sarnast uuringut, siis on eelkõige oluline tajuda oma võimaliku eksimise hinda ning sellest lähtuvalt valida optimaalne valimi suurus. Näiteks, kui meid huvitab üsna üldisel tasandil mingi probleem, siis reeglina 500 vastajaga küsitlus (kus veapiir ei tohiks ületada ~4.4%) annab juba võrdlemisi viisaka täpsuse.
Teisalt, kui meie huvi on lisaks kogu sihtgrupi arvamustele uurida ka detailsemalt sihtgrupi alamgruppide hinnanguid, peame kindlasti valimi suurust ka sellest seisukohast planeerima. Näiteks, oletame, et tahame omavahel võrrelda kahe suurema erakonna toetajaskonna väärtushinnanguid. Kui eeldame, et mõlemat suuremat erakonda toetab ligikaudu viiendik kogu küsitletud seltskonnast, siis 500 vastajaga uuringu puhul jääb kummagi erakonna toetajaid alles ligikaudu 100. Mõlema grupi siseselt on seega veapiir tõusnud hüppeliselt ligi 10%-ni. Kui soovime ka mõne marginaalsema erakonna toetajate hinnanguid teada, kasvab eksimise tõenäosus aga veelgi.
Seega, kui plaanite teha uuringut, on mõistlik ligilähedaselt prognoosida Teid kindlasti huvitavate vastajate alagruppide proportsiooni ja hulka kogu valimi seas ning lähtuda valimi suuruse planeerimisel sellest.
NB! Veapiiride ja üldse üldistamise aluseks on muidugi nn esinduslik ja üldkogumi proportsioonidest lähtuv valim. Valimi esinduslikkusest kirjutasime lähemalt ühes eelmises postituses siin.
Kokkuvõtteks
- Veapiiri peame jälgima, kui teeme üldistusi valimilt üldkogumile.
- Üldistuste eelduseks on esinduslik valim.
- Vea suurus sõltub eelkõige valimi suurusest ja vastuse proportsioonist.
- Tavapärane veapiir avalikkuses kajastatavate avaliku arvamuse uuringute puhul on kuni ~3% ca tuhande vastajaga küsitluste puhul.
Järgnevates postitustes jätkab Andmemasin sotsiaal ja turu-uuringute ja analüütikaga seotud mõistete lahtikirjutamist.
Andmemasin tegeleb andmetenalüüsi, andmetöötluse ning uuringukonsultatsioonide pakkumisega nii ettevõtetele kui eraisikutele.
NB! Kui Sul tekib konkreetseid küsimusi või mõisteid, mille selgitamist siin blogis hea meelega näeksid, postita need siia alla. Aitäh!

