Uuringuandmete kaalumisest

Andmete kaalumine, mis see veel on? Andmemasina Uuringukool seletab!

Andmete kaalumine, mis see veel on? Andmemasina Uuringukool seletab!

Mis on andmete kaalumine (data weighing) ja milleks see hea on? Selgitame lihtsa näite varal, kuidas ja miks kasutatakse andmete kaalumist sotsiaal- ning turu-uuringute tulemuste analüüsimisel. Mis on kaalumise eesmärk? Sageli on sotsiaaluuringute eesmärgiks teha üldistusi küsitletud valimi baasil laiema grupi ehk üldkogumi kohta. Näiteks, tavapäraste elanikkonnaküsitluste (sageli nn Omnibuss-tüüpi küsitlused) eesmärk on teha järeldusi kogu riigi elanikkonna kohta. Selleks, et valimi alusel saaks teha nö laiendatud väiteid, on vajalik, et valim oleks representatiivne ehk esinduslik. Sisuliselt tähendab see, et valim peab vastama üldkogumi struktuurile, peab olema nö väikesekujuline mudel üldkogumist. Näiteks, kui üldkogumis (nt Eesti elanike seas üldiselt) on mehi ja naisi võrdselt 50%, siis on oluline, et ka valimis oleks meeste-naiste suhe võimalikult sarnane. Kuna puhas juhuslik valik eksisteerib sotsiaaluuringute puhul paraku ainult teoorias, on uurijad sageli küsitlustöö lõppemisel fakti ees, et valimi struktuur erineb pisut üldkogumi nn mudeli struktuurist. Nii näiteks võib juhtuda, et meie toodud näite puhul satub valimisse peale küsitlustöö lõppemist 47% mehi ja 53% naisi.
Üksnes üldkogumi struktuuri olulistes tunnustes (näiteks sugu, vanus, elukoht, rahvus) matkiv valim saab olla eelduseks üldistavate järelduste tegemiseks. Vaid sellist valimit võib nimetada esinduslikuks ehk representatiivseks.
Kaalumise eesmärk on sellistel juhtudel valimi tulemusi korrigeerida selliselt, et need vastaks võimalikult täpselt üldkogumi mudelile (meie näites sooline jagunemine 50/50). Üksnes üldkogumi struktuuri olulistes tunnustes (näiteks sugu, vanus, elukoht, rahvus) matkiv valim saab olla eelduseks üldistavate järelduste tegemiseks. Vaid sellist valimit võib nimetada esinduslikuks ehk representatiivseks. Kuidas seda tehakse? Võtame näiteks mainitud olukorra, kus mudeli järgi on mehi ja naisi võrdselt 50%, ent kogutud valimi puhul mehi vaid 47% ning naised on pisut üleesindatud 53%-ga. Kui ilma kaalumata andmete puhul on iga vastaja kaal valimis võrdne nö ühe häälega, siis kaalumise tulemusena korrigeeritakse iga vastaja nö hääle suurust. Antud näite puhul on meil mehi valimis 47%, kuid peaks olema 50%. Lihtsa jagamistehte tulemusena saame oodatava ning tegeliku proportsiooni suhteks 1,064. Kuna mehi on valimis mudelist vähem, anname igale mehele meie valimis ühe hääle asemel 1,064 häält. Naiste puhul kahandame iga vastanud naise hääle ühelt häälelt 0,943 häälele. Selliste võrdlemisi väikeste korrigeerimistega saame valimis tulemuseks täpselt sama soolise proportsiooni, kui üldkogumis. Päris elus kasutatakse sõltuvalt üldkogumist paralleelselt mitmeid olulisi struktuurseid parameetreid, mis võivad mõjutada tulemusi. Nii näiteks tüüpiliselt Eesti elanikkonda esindava valimi puhul kontrollitakse valimi ja mudeli vastavust lisaks soole ka vanusegruppide, regioonide ning vajadusel ka rahvuse tasandil. Eesti kontekst Tüüpiliselt satub Eesti oludes sotsiaaluuringute valimitesse liialt palju vanemaid naisterahvaid ning vastupidi, oodatust vähem nooremaid meesterahvaid (eelkõige silmast-silma vastajate kodudes tehtavate uuringute puhul). Ehkki esmatasandi valikud (näiteks vastajate  aadresside valik) võivad olla täiesti juhuslikkusel põhinevad, on tegeliku elu paratamatus see, et vanemad naisterahvad on selgelt sagedamini kodus kui noored mehed. Osalt kompenseeritakse seda Eesti uuringufirmades nn noore mehe reegliga, mis ütleb, et igas leibkonnas tehakse intervjuu kodus viibiva kõige noorema meesterahvaga. Siiski on sageli tulemus mudelist mõnevõrra erinev ning vajab enne andmeanalüüsi täiendavat korrigeerimist kaalumise näol. Kui palju võib kaaluda? Kaalumine peaks idee järgi olema selline fine tuning protsess. On mõeldamatu, et näiteks ühe inimese arvamused kaalutakse kehva valimi planeerimise tõttu kümnekordseks. Reeglina jäävad kaalumised üsna ühe palli lähedale. Ülespoole kaalumise puhul lubatakse Eesti praktikas ehk mõnede mudeli kitsaste allgruppide puhul kaale kuni koefitsendiga 2. Tüüpilise näitena enda praktikast võin tuua, et ühe konkreetse üle-eestilise küsitluse puhul on ~80% vastajate kaaludest vahemikus 0,8 – 1,2. Ja 0,7 – 1,3 punkti suurusesse kaaluvahemikku mahub ca 95% valimist. Tööriistad Lihtsamates olukordades saab kaalusid korrigeerida äärmiselt lihtsate vahenditega. Näiteks, kui mudel on defineeritud üksnes soo ning ütleme kolme vanusegrupiga, on kokku kuus erinevat valimi gruppi, mille kaalu tuleb vajadusel korrigeerida. Seega, vaja on teha kuus lihtsat jagamistehet ning asendada igas grupis kõigi vastajate kaalud korrigeeritud numbritega. Andmete analüüsimisel sõltub kaalude kasutamine kasutatavast tarkvarast. Exceli puhul tuleb ridade countimise asemel summeerida kaalud. SPSS-is on selleks vastav koht menüüs/käsk süntaksis (weight by [var].) Kui korrigeerimist või jälgimist vajavaid tunnuseid on rohkem, on mõistlik kaalumise puhul kasutada spetsiaalset tarkvara. Andmemasina on programmeerinud kaalumistarkvara, mis võimaldab korduvate pöörete (iterations) abil kaaluda ka keerulisi üldkogumi mudeleid olukordades, kus kaalutavaid gruppe on palju ning kaalumisi võimalik teha ka mitmeastmeliselt. Andmemasina poolt programmeeritud kaalumise tarkvara kasutab täna näiteks üks Eesti juhtivaid uuringufirmasid Turu-uuringute AS. Andmemasin tegeleb andmetenalüüsi, andmetöötluse ning uuringukonsultatsioonide pakkumisega nii ettevõtetele kui eraisikutele.

Või mis Sina arvad?