Sildiarhiiv: statistika

Väidete tõesuse hindamine valdkonnas, mida ise ei tunne

Arvamusliidrid, ajakirjandus, turundajad jne esitavad igasuguseid väiteid, mille tõepära võib valdkonda mitte tundval inimesel olla keeruline tuvastada. Tõestamiskohustus peaks olema väite esitajal. Täit tõde ei saa me kunagi teada, kuna elame tõenäosuslikus universumis. Isegi piisavalt keeruline deterministlik protsess näib juhuslik (Lipman 1991). Täit tõde pole enamasti vaja, sest piisavalt väikese veaga teabest piisab õige otsuse tegemiseks. Teatud määral informatiivse signaali saame peaaegu iga väite kohta.

Esimene kontroll on loogika. Kahest omavahel vastuolus väitest on vähemalt üks vale. Võivad ka mõlemad väärad olla, näiteks „X on ainult homoseksuaalne”, „X on puhtalt hetero” kui X on tegelikult bi. Muu teabe puudumisel väheneb iga vastuolus osaleva väite tõesuse tõenäosus. Väidete võrdlemiseks peab muidugi väitja varasem jutt meeles olema. Igasugune väidete kontroll vajab mälu – kas varasemate väidete, füüsikaseaduste või muude teabeallikatega võrdlemiseks.

Vastuolu on negatiivne signaal tõesuse kohta, seega väidete kooskõla on positiivne signaal. Üldiselt, kui üks signaali väärtus suurendab mingit tõenäosust, siis vastandlik signaali väärtus vähendab seda. Paljude võimalike signaali väärtuste korral kui üks signaali väärtus suurendab millegi tõenäosust, siis on olemas ka vähemalt üks signaali väärtus, mis seda tõenäosust vähendab.

Väidete kooskõla on enamasti üsna nõrk signaal tõesusest, sest enamik väiteid on samal allikal kooskõlalised. Kui signaali väärtus esineb tihti, siis ei ütle selle esinemine eriti palju – olukord on tavalisele lähedane.

Väite tõesust saab kontrollida, võrreldes seda maailma kohta teada olevaga (füüsikaseadused, objektiivsed mõõtmised nagu turvakaamera salvestis jne), aga jätan need variandid kõrvale, kuna eelduseks oli valdkonda mitte tundev inimene. Selline kuulaja ei pruugi suuta siduda arvamusliidri väiteid muude valdkondadega ja tuvastada vastuolu või kooskõla.

Teised kontrollid väidete tõesuse kohta on statistilised. Kui antud valdkonnas tuleb andmeid juurde, siis parim hinnang tõe kohta muutub ajas, sest tõenäosus, et uued andmed langevad täpselt kokku varasema hinnanguga, on nullilähedane. Seega peaks aus asjatundja oma arvamust iga uue andmeavaldamise valguses pisut muutma. Muutus võib olla nii väike, et sõnades seda ei väljendatagi, ainult arvuliste prognooside komakohad erinevad. Inimene, kes endale aru annab, et ta täit tõde ei tea (sest keegi ei tea), on valmis andmetest saadavat teavet oma uskumusele lisama ja seega keskmist uskumust nihutama. See kehtib tegeliku maailma kohta, mitte abstraktsete konstruktsioonide nagu matemaatika. Ega teada oleva matemaatika kohta uusi „andmeid” peaaegu ei tulegi. Matemaatika areneb varem mitte teada olnud seoste avastamisega ja vahel tõestuses vea avastamisega.

Kaljukindlalt samale seisukohale jäämine uutest andmetest hoolimata on negatiivne signaal allika tõesuse kohta. Usuhullud tunnevad uhkust oma tugeva usu üle, mida miski kõigutada ei suuda, ehk oma soovimatuse üle õppida.

Teisest küljest, arvamuse radikaalne muutmine iga uue andmeavaldamise järel on samuti negatiivne signaal allika tõesusest, sest oma uskumust statistiliselt õigesti uuendades peaks uus teave lisanduma vanale, mitte seda asendama. Erandiks on kui uued andmed tõestavad, et eelnevad andmed olid puhas müra ja tuleks ära visata, näiteks olid võltsitud. Selline tõestus on haruldane ja alati on võimalus, et uued andmed ise on valed. Valesüüdistusi võltsimises on ennegi esitatud.

Enamiku praktikas esinevate tõenäosusjaotuste puhul on uus uskumus peale andmete lisandumist vana uskumuse ja uue signaali vahepeal. Normaaljaotusega muutuja korral, kui andmetes sisalduv müra on ka normaaljaotusega, siis on uus uskumus lineaarne kombinatsioon vanast uskumusest ja uuest signaalist. Enamasti peaksid andmed „tõmbama uskumust enda poole” ja mitte „endast üle teisele poole”, aga esineb ka tõenäosusjaotusi ja signaalimüra kujusid, mille korral kogu uskumuse jaotus liigub uuest signaalist eemale. Enamasti on arvaja väite liikumine uute andmete näidatud suunas, aga mitte andmetest „üle hüppamine” positiivne signaal tõesuse kohta ja eemaleliikumine negatiivne.

Mida rohkem on varasemaid andmeid ja väiksem uute andmete valim, seda vähem peaks uskumus uute andmete mõjul liikuma. Kaua teada olnud tervisliku toitumise põhimõtted (toidupüramiid) peaksid uute uurimuste valguses muutuma vaid mikroskoopiliselt. Tundmatu viiruse avastamisel võivad alguses uurimused ausate asjatundjate arvamusi radikaalselt muuta, aga teabe lisandudes sama suured uuringud üha vähem ja vähem. Kui varasemate andmete hulk läheb lõpmatusse, siis uskumuse keskväärtuse muut peaks minema nulli (martingaali koondumisteoreem, martingale convergence theorem).

Keskmiselt peaks uue uskumuse keskväärtus võrduma vana uskumuse keskväärtusega, nii et uskumuse ühes suunas liikumisi on (muutuse suurusega kaalutult) keskmiselt võrdselt teises suunas liikumistega. Muidu oleks varasem uskumus ju kallutatud olnud kui uus uskumus järjekindlalt ühes suunas muutub.

Statistiline kontroll nõuab piisavalt suurt valimit väiteid samalt allikalt, et väidete kaalutud keskmine muutus aja jooksul ühes ja teises suunas oleks arvutatav piisavalt väikese veaga.

Kokkuvõtteks, uskumus, mis on saadaoleva teabe põhjal parim hinnang tõe kohta, peaks andmete mõjul 1) muutuma, 2) rohkem kui uusi andmeid on rohkem, 3) vähem kui varasemaid andmeid on rohkem, 4) igas suunas keskmiselt ühepalju, 5) andmete suunas, 6) mitte liiga palju.

Seotud sisu:

On the optimal burden of proof

Isiksuseuuringu sisulised ja kirjavead

TÜ Eesti geenivaramu isiksuseuuringus on kahjuks nii sisulisi kui kirjavigu. Õigekirjakontroll (näiteks küsimusi mõnesse kontoriprogrammi kopeerides) oleks võtnud viis minutit ja ennetanud viga „Euroopa Paralament”. Läbi lugemine oleks tõenäoliselt ennetanud suurtäheviga „Kas elate eestis?” Mulle torkas silma ka ebakõla Teie ja teie vahel („Kes see inimene Teie jaoks on?” ja „Milline on teie perekonnaseis?”), nagu ka mitmuseviga „samasugused õiguse ja kohustused”.

Sisulise poole pealt õppisin TÜs statistika sissejuhatuse aines küsitluse koostamise loengus, et iga küsimusega peaks küsima ainult üht asja, küsimus peaks olema selge ja üheselt mõistetav. Isiksuseuuringu küsimus „Olen salliv rahvuste ja religioonide suhtes” küsib aga vähemalt kahte asja, sest rahvus ja usk on erinevad teemad. Rahvusi on ka mitu ja sallivus nende suhtes võib erineda. Sama märkus käib usundite kohta.

Mitme rahvuse kohta küsiv „riik peaks olema avatud teistest rahvustest inimestele” on tõlgendatav erinevalt: kas kõigile rahvustele või vähemalt kahele. Tõenäoliselt on Eesti elanike suhtumine välismaalastesse oluliselt erinev sõltuvalt välismaalase rahvusest ja võibolla ka suhtuja rahvusest. Ajakirjandusest on mulle selline mulje jäänud.

Kahte asja küsib ka „meestel ja naistel on ühiskonnas samasugused õiguse ja kohustused”, sest õigused võivad olla samad, aga kohustused erinevad või vastupidi.

Paarisuhtes mitteolevaid naisi rohkem kui mehi

22% mehi ja 30% naisi väidab end mitte olevat paarisuhtes Postimehes 10.11.2021 avaldatud (Mihkel Servinski, Hillar Petersen “Eesti mees on tubli isa”) Pere Sihtkapital SA tellitud Norstati uuringu ja samas võrdluseks toodud kevadise „enne emadepäeva” uuringu kohaselt. Valimi suurus on meeste uuringul 2000, oletatavasti sama ka naiste uuringul, nii et suhtes mitteolevate protsendid on valimites sugude lõikes statistiliselt oluliselt erinevad (kalkulaator). Populatsioonis 650000 (üks sugupool Eestis) annab valimi suurus 2000 veapiiriks alla 3%, nii et valimist järeldub statistiliselt oluline erinevus kogu populatsioonis. Mis on võimalikud seletused meeste ja naiste paarisuhte tõenäosuse erinevusele? Naljaga pooleks pakun mõned ebatõenäolised põhjused, aga tõsiseltvõetavat ei oska ma öelda.

1) Samasoolisi paarisuhteid meeste hulgas 8 protsendipunkti rohkem kui naiste seas.

2) Rohkem naisi on suhtes mitme mehega kui mehi mitme naisega.

3) Valimid on võetud kevadel ja sügisel, seega paljud suhted suvel lõppesid.

4) Erinev suhte definitsioon meestel ja naistel – mees arvab, et on suhtes, aga naine ei arva.

5) Mehed valetavad küsitlejale, et on suhtes või naised valetavad, et ei ole.

6) Kaheksa protsendipunkti rohkem mehi kui naisi on suhtes väljaspool Eestit elavate inimestega, keda küsitlus ei hõlma.

7) Uuringu korraldaja või artikli autorite või ajakirjanike näpuviga protsentidega.

Statistikaameti 2011 andmed paarisuhete kohta RL0708: VÄHEMALT 15-AASTASED TAVALEIBKONDADE LIIKMED, 31. DETSEMBER 2011 | Sugu, Maakond, Seaduslik perekonnaseis, Vanuserühm, Tegelik perekonnaseis ning Leibkonna suurus. Statistika andmebaas

..kooselus seadusliku abikaasaga ..vabaabielus Partnerita
Mehed
15-19 20 353 33 969
20-24 1 185 6 479 40 244
25-29 6 502 13 780 26 317
30-34 12 814 14 231 17 329
35-39 16 741 12 786 15 069
40-44 18 973 10 308 13 695
45-49 20 389 7 575 13 035
50-54 22 958 6 196 13 018
55-59 21 983 4 671 11 479
60-64 20 466 3 480 9 335
65-69 14 456 2 150 6 021
70-74 15 189 1 663 6 075
75-79 9 672 856 4 300
80-84 5 659 414 3 351
85 ja vanemad 1 996 157 2 082
Naised
15-19 106 1 313 31 368
20-24 2 771 11 557 31 276
25-29 10 159 15 640 19 629
30-34 15 230 13 447 14 657
35-39 17 913 11 331 15 057
40-44 19 254 8 756 16 465
45-49 20 151 6 345 17 609
50-54 22 612 5 374 20 486
55-59 21 850 4 109 21 455
60-64 19 787 2 954 22 868
65-69 13 398 1 762 19 239
70-74 13 277 1 391 26 800
75-79 7 701 740 23 350
80-84 3 731 291 20 837
85 ja vanemad 1 063 105 15 620

Perearstide kvaliteedi võrdlemine suremuse põhjal

Kuulsin lugu Eesti perearstist, kes ei võtnud ise vajalikke ravimeid ega kirjutanud teistele, sest ei uskunud ravimitesse. See ravi puudumine põhjustas tal vaimseid probleeme, nii et tal võeti lõpuks nimistu ära. Kahtlustan, et enne jõudis ta oma nimistusse kuuluvaid patsiente ravist ilma jättes teatud kahju teha. Soodapuhujast perearst ilmselt tekitas sarnast kahju. Tõenäoliselt oleks sekkumine kiirem ja kahju väiksem olnud kui nimistu suremust ja haiglasse sattumist oleks teiste arstidega võrreldud ja järeldused tehtud. Ilmselt on selliseid arste vähe, aga kuna kontrolliga ära hoitav kahju on potentsiaalselt suur, siis oleks hea ravitulemusi kontrollida.

Meditsiini ja hariduse kvaliteedi mõõtmine on keeruline nii isikuandmete kaitse kui alternatiivstsenaariumi puudumise tõttu (milline oleks haiguskulg või teadmistepagas olnud teise raviarsti või õpetaja korral). Suure valimi põhjal saab siiski statistikat teha. Perearsti nimistu on umbes kaks tuhat inimest (Otsing – Terviseameti registrid (sm.ee)), suure dispersiooniga. Kui keskmine eluiga on 80, siis keskmiselt sureb kahetuhandelises nimistus aastas 25 inimest, nii et paariaastase libiseva keskmise põhjal saaks juba statistiliselt olulisi mõõtetulemusi.

Kui ühel perearstil sureb kahtlaselt suur protsent nimistusse kuulujaid võrreldes teiste sarnaste nimistutega, siis peaks selle arsti kutsesobivust kontrollima, näiteks litsentsi säilitamiseks korduseksamile suunama. Võrdlusbaasi puhul on oluline, et nimistud oleksid vanuse, krooniliste haiguste ja muude suremust mõjutavate tegurite osas sarnased, sest peamiselt vanuritest koosnevas nimistus sureb loomulikult suurem protsent kui noores nimistus.

Võrrelda saab ka sama nimistut ajas. Kui surijate protsent mingil aastal järsku suureneb, võrreldes riigi taustsuremusega, siis peaks samuti kontrollima, miks. Inimese töövõime võib äkitselt halveneda ja talle endale märkamatult, sealhulgas arstidel. Vahel on aga suurem suremus juhus.

Isikuandmeid ei pea ükski inimene suremuste võrdluseks töötlema. Piisab arvutiprogrammist, mis teeb päringu surmade registrist ja perearstide nimistutest ja kuvab iga nimistu kohta, kui suur protsent sellest antud aastal suri. Näiteks Terviseameti perearstide registris võiks iga nimistu kõrval olla sellest viimase aastase perioodi jooksul surnute protsent, mis jooksvalt uueneb surmade registri kannete põhjal. Pikema aja statistikat iga nimistu kohta ja vanuselist struktuuri võiks samuti avalikult vaadata saada.

Haiglasse sattumiste andmed on tõenäoliselt digiloos olemas, nii et need saaks samuti nimistutega automaatselt kokku viia ja teha jooksvat statistikat, kui suur protsent igast nimistust viimase aasta jooksul haiglaravi vajas.

Surma- ja haiglasse sattumise põhjuse andmed annaksid veelgi täpsema mõõtmise. Esimene samm oleks õnnetusjuhtumite eristamine haigustest, kuna õnnetus pole tõenäoliselt arsti tegevuse või tegevusetuse tagajärg. Reisilt saadud nakkus pole samuti arsti süü, aga protseduuri tagajärjel tekkinu võib olla. Kroonilise haiguse ägenemine võib olla täpsem signaal arsti oskuste kohta kui nakkus.

Pole isegi vaja ette paika panna, millised surmapõhjused kirjutada arsti arvele ja millised juhuse, sest andmed näitavad, kui palju iga surmapõhjus arstide lõikes erineb. Õnnetusi juhtub ilmselt igas nimistus enamvähem sama tõenäosusega, arvestades nimistu vanuselist, soolist jne koosseisu. Seevastu need tegurid, mida arst rohkem mõjutada saab, erinevad nimistute vahel ka rohkem.

Kui riigiasutused ei taha seda statistikat teha, saab rahvas asja ka oma kätesse võtta – teha arvutustabel, mida internetis täita saab ja lähedase surma korral kirjutada tabelisse, millise perearsti nimistus inimene oli, umbkaudne surma aeg ja põhjus.

Kaudne viis osaliselt sama teavet saada on võrrelda suremust väikestes eraldatud asulates, kus on ainult üks perearst. Tõenäoliselt on enamik asula inimesi selle arsti nimistus. Kui mõni küla on statistiliselt olulisel määral ebatervislikum kui teised, siis oleks elanikel ehk huvitav seda teada. Statistikaamet kahjuks pakub surmastatistikat ainult maakonna täpsusega (RV56: Surnud surmapõhjuse, soo ja vanuserühma järgi (stat.ee)).

Kui suremusprotsenti korrigeerida vastavalt krooniliste haiguste esinemissagedusele, siis tekib arstidel manipuleerimismotiiv: kui määrata paljudele krooniline haigus, siis näib antud suremus parema tööna, sest kroonilisi haigeid on raskem elus hoida. Kes hakkama saab, on hea tegija. Pole vaja otseselt valetada, et tervel inimesel on mingi haigus, sest piiripealseid juhtumeid on piisavalt palju. Vahel on vererõhk, veresuhkur, TSH või muu mõõtetulemus normist väljas, vahel mitte. Arsti otsus on, kas lugeda sellised tulemused krooniliseks haiguseks või mitte. Terviseökonoomikas on haiglate ja arstide tegutsemist rahalisele motiivile vastavalt palju mõõdetud ja tõestatud.

Valikuline mälu seletab väidet täiskuu mõju kohta ilmale

Kuulsin väidet, et täiskuu ajal on ilus ilm, sest Kuu raskusjõu mõju tekitab kuidagi kõrgrõhkkonna. Valikuline mälu seletab, miks inimestel tekib mulje nagu täiskuu ajal oleks ilus ilm. Vihmase ilmaga pole taevas Kuud näha. Kuuloomise ajal pole Kuud samuti näha, olgu ilm milline tahes. Inimesed mäletavad paremini seda, mida nad näevad. Seega mäletatakse täiskuud selge ilma ajal, mitte täiskuud vihmase ilmaga ega kuuloomist selge ilmaga. Tagantjärele tundub nagu oleks täiskuu ja selge ilma vahel positiivne korrelatsioon.

Valikulise mälu mõju tugevdab see kui teised räägivad, et seos on olemas, sest kui inimene väidetavat seost mäletab, siis paneb ta seda seost kinnitavaid vaatlusi rohkem tähele kui seda ümber lükkavaid. Inimene mäletab pigem oma eelarvamust toetavaid andmepunkte. Ise oma valikulist mälu mitte arvestades tundub tagantjärele, et seost kinnitavaid vaatlusi oligi rohkem.

Andmete põhjal on lihtne kontrollida, kas kuufaaside ja ilma vahel on seos. Nii ilmastatistika kui kuufaaside andmed on internetis tasuta kättesaadavad. Teoreetiliselt on argument seose puudumise poolt see, et kuufaas on kogu maailmas samal ööl sama, aga kõrgrõhkkond on suhteline (ümbritseva piirkonna õhurõhust kõrgem), nii et kui kusagil on kõrgrõhkkond, peab kusagil olema madalrõhkkond sama kuufaasi ajal. Keskmiselt on rõhkkond keskmine ükskõik millises kuufaasis, ka täiskuu ajal.

Teoreetiliselt võib juhtuda, et mingis kuufaasis katavad kõrgrõhkkonnad suurema osa Maa pinnast kui teises faasis, sest rõhk võib olla keskmisest pisut kõrgem suures piirkonnas ja keskmisest palju madalam väikesel alal, nii et keskmine rõhk on ikka keskmine :) Teises faasis võib jällegi väikeses piirkonnas keskmisest palju kõrgem rõhk olla ja suurel alal pisut madalam, aga see ei tundu kuigi tõenäoline. Pakun, et kuufaasi ja ilma seose puhul on tegu niinimetatud vanarahva tarkusega, mis kontrollimisel osutub vanarahva lolluseks.

Arhitektide motiiv nõuda ehitise sobivust miljööga

Arhitektide üks isekas motiiv nõuda uue ehitise sobivust ümbritsevatega on, et see sunnib uusi turule tulevaid arhitekte jäljendama vanade stiili, kes kavandasid piirkonna praegused hooned. Vanad olijad on oma stiili kopeerimises osavamad kui uued tulijad. Seega annab jäljendamise nõue vanadele olijatele konkurentsieelise.

Seda teooriat saab empiiriliselt kontrollida arhitektuurivõistluste andmetel. Selleks tuleb paljude võistluste lõikes vaadata 1) esitatud kavandite sarnasust ümbritsevate hoonetega (masinõpe suudab piisavalt suure valimi korral tuvastada sarnasuse ka seda eelnevalt defineerimata), 2) arhitekti karjääri pikkust antud turul ja eriti seda, kas ta on mõne ümbritseva ehitise kavandaja, 3) kes võitis, 4) kes oli žüriis. Kui mõne ümbritseva hoone arhitekt võidab suurema tõenäosusega kui tema varasemate saavutuste põhjal eeldada võiks, siis viitab see stiilikopeerija eelisele uudsusepakkuja ees. Sama järelduse võib teha kui ümbritsevate hoonetega sarnane kavand võidab suurema tõenäosusega kui erinev. Kui žüriis on kohalikud arhitektid ja eriti ümbritsevate hoonete kavandajad, kas siis on kopeerija eelis suurem? Ehk kas siis võidab sarnane kavand suurema tõenäosusega kui välisžürii puhul?

Kui uued arhitektid on juba mõne püstitatud ehitisega teatud stiili järginud, tekib neil motiiv ka ise edaspidi selle järgimist nõuda, et eelist saada. Nad liituvad siseringiga ja on siis huvitatud siseringi positsiooni kindlustamisest. Sotsiaalne norm jätkub. Sarnane mehhanism toimib muudes kunstivaldkondades, aga ka teaduses, kus avaldamiseks tuleb viidata paljuviidatud teadlastele.

Nõuandja, kel endal palju probleeme

Teise silmas pindu näed, enda silmas palki ei näe.” „Need, kes oskavad, teevad, need kes ei oska, õpetavad ja need, kes õpetada ka ei oska, töötavad välja õpetamismetoodika.” Sellised ütlused võivad psühholoogiliselt ja poliitökonoomiliselt vahel õiged olla, aga vahel on need valed.

Inimene, kel on endal palju lahendamata probleeme, võib ometi teisele tema probleemi kohta kasulikku nõu anda, isegi kui teisel on vähem probleeme. Näiteks nõuandjal tekivad probleemid nr 1-10, millest ta lahendab pooled: nr 1,3,5,7,9. Teisel tekivad probleemid 9-12, seega vähem kui esimesel isegi peale lahendamist. Nõuandja võib probleemi nr 9 lahendust teisele seletada. Teine võib vastutasuks leida ja seletada nr 10 lahendust.

Paljude probleemidega inimene võib olla parem nõuandja kui vähestega, eriti juhul kui ta on palju lahendanud ja tema probleemide arvukust põhjustab nende kiire juurde tekkimine, mitte aeglane lahendamine. Seevastu kui inimesel kuhjub palju probleeme, kuna ta pole hea lahendaja, siis ei pruugi ta eriti hea nõuandja olla.

Kui inimene ise probleemi lahendanud ei ole, vaid ainult teoretiseerib nagu mina siin kirjutades, siis kuidas võiks nõu saaja hinnata nõuandja kompetentsi ja pakutud lahenduse headust? Eeldame, et nõu saaja tahab nõu headust hinnata enne selle proovimist ja pole valdkonnas asjatundja. Saaja võib lugeda teaduskirjandust, selle lihtsamaid ülevaateartikleid või veel lihtsamaid õpikuid, aga see on aeganõudev ja mõnele üle jõu käiv. Kiirem, aga ebatäpsem hindamisviis on nõuandja tarkuse ja hariduse põhjal, eriti antud valdkonnas. Kui nõuandja CV on kättesaadav, võib sealt lugeda signaali tema kompetentsi kohta. Teine ebatäpne, kuid pisut informatiivne hindamisviis on vaadata nõuandja probleemide hulka – muude tegurite samaks jäädes on paremal probleemilahendajal vähem probleeme. Selles mõttes on „Mis sa teisi õpetad, vaata parem ennast!” statistiliselt õigesuunaline, kuigi üsna mürarikas otsustuskriteerium.

Looduse muutumise ülehindamine vihmase ilma tagajärjel

Inimesed arvavad, põhjusega või ilma, et vihmaga sulab lumi kiiremini, lilled ja seened tärkavad rutem ja ilm muutub vihma tagajärjel. Osa sellest arvamusest võib olla seletatav valikulise mäluga. Vihmaga käiakse vähem õues, seega isiklikke loodusvaatlusi lahutavad pikemad vaheajad. See annab loodusele rohkem aega muutumiseks. Kontrast eelmise ja praeguse vaatluse vahel suureneb, uudsus aga teeb igasugused muutused silmatorkavamaks ja meeldejäävamaks. Suurenenud tajutav kontrast looduses kirjutatakse vihma arvele, kuigi muutuse põhjuseks on lihtsalt aja möödumine. Loodus võib tõesti vihmaga kiiremini muutuda, aga tajutav kontrast on suurem kui tegelik.

Prokuratuuri mõjuvõimu mõõtmisest

Rein Lang ja Leon Glikman on korduvalt väitnud, et Eestis on prokuratuuril suur mõjuvõim, mida too ära kasutab alusetute süüdistuste esitamiseks ja et ajakirjandus on prokuratuuri suhtes kriitikavaba, lugedes kahtlustuse kohe süüdimõistmiseks. Prokuratuur eitab sellist käitumist. Mõlemad pooled on osavad sõnaseadjad. Sõna sõna vastu olukorras pole kodanikul selge, kummal on õigus.

Prokuratuuri tegeliku mõjuvõimu mõõtmiseks ja alusetute süüdistuste osakaalu hindamiseks peaks prokuratuuri tegevust võrdlema teiste riikide vastavate asutustega. Loomulikult on võrdlemiseks vaja eeldusi – kui uskuda vandenõuteooriat, et kogu riik on prokuratuuri kontrolli all ja iga süüdistus viib süüdimõistmisele, siis ei saa hinnata alusetute süüdistuste osakaalu. Eeldan, et kohtud ega kurjategijad ei tegutse prokuratuuriga kooskõlastatult erinevates riikides erineval määral. Kui nad igal pool sama palju kooskõlastavad, saame ikkagi eri riikide prokuratuuride keskmist mõjukust ja süüdistuste tõesust võrrelda.

Naiivne oleks ka lugeda süüdimõistmiste protsent süüdistuste hulgas prokuratuuri efektiivsuse mõõduks. Kui ühes riigis teatavad inimesed ainult ilmselgetest kuritegudest ja teises igasugusest kahtlasest tegevusest, siis on süüdimõistmise protsent esimeses suurem ka prokuratuuri pisut väiksema võimekuse korral, sest selget kuriteokoosseisu on lihtne kohtus tõestada. Kui ühes riigis on kohtud süüdistaja poole kaldu, teises kaitsja, siis on süüdimõistmise protsent esimeses kõrgem, isegi kui sealne prokuratuur on nõrgemal tasemel.

Kohtute kallutatust prokuratuuri suhtes või kriminaalasjades on raske eristada prokuratuuri tugevusest. Kui eeldada, et kohtute kallutatus süüdistaja poole on sama nii tsiviil- kui kriminaalasjades, siis saab seda kallutatust mõõta hageja kasuks lahendatud tsiviilasjade protsendiga, mida tuleb korrigeerida hagide arvuga elaniku kohta, sest kui ühes riigis esitatakse palju alusetuid hagisid, teises ainult põhjendatud hagid…

Kuriteost teatamise tõenäosust saab eraldi mõõta, seega eristada prokuratuuri tugevusest, kui on olemas õigussüsteemiväline mõõdik kuritegude hulga kohta ja kuriteoteadete arv. Väline mõõdik on näiteks esindusliku valimiga küsitlus „Kas olete isiklikult olnud kuriteoliigi x ohver?”, „Kas keegi teie tuttavatest on ja kui palju on teil tuttavaid?” Teatamise tõenäosuse erinevus kuriteoliikide lõikes on samuti kasulik teave. Vähe teatatud kuritegusid saab mõõta kaudselt, näiteks koduvägivalda kahtlaste vigastustega arstiabi saavate inimeste arvu järgi, kes väidavad, et kukkusid.

Praktiliselt võib prokuratuuri võimsuse mõõtmiseks jooksutada riikide lõikes regressiooni, kus sõltuv muutuja on süüdimõistmiste protsent, sõltumatud muutujad kuriteost teatamise tõenäosus ja kohtu süüdistaja poole kallutatuse määr. Lisada võib ka muid muutujaid nagu kuriteo liik, SKP inimese kohta, prokuratuuri suurus protsendina rahvastikust, prokuratuuri keskmine palk. Prokuratuuri tugevuse mõõt igas riigis on see osa süüdimõistmiste protsendist, mida sõltumatud muutujad ei seleta, ehk regressiooni jääk (inglise keeles residual).

Teksti ja kõne automaatse teisendamise treeningandmed

Masinõppeks on vaja suurt andmehulka. Vähese kõnelejate arvuga keele puhul on kallis palgata inimesi arvutile tekste ette lugema, et arvuti õpiks teksti kõneks teisendama. Samuti on kallis kõne kirjapanijaid palgata, et arvuti õpiks kõnet tekstiks tõlkima. Peaks leidma juba nii kõnes kui kirjas olemas olevaid tekste, mida masinõppele sööta. Üks näide on raadiointervjuud, mis ka ajalehes avaldatakse (Kuku Raadio saade Restart Postimehe majanduslehekülgedel, Toomas Sildami intervjuud). Probleemiks on suulise intervjuu toimetamine enne kirjalikku avaldamist, mis tähendab, et kõne ja tekst ei ole üksüheses vastavuses. Natuke kasu sellest siiski arvutile on, sest osad laused korduvad kõnes ja kirjas. Kõnenäidiseid ilma kirjaliku vasteta saab audiovisuaalsest ajakirjandusest hulganisti, samuti kirjalikku teksti helilise vasteta trükiajakirjandusest.

Kui koolides on tehtud etteütlusi arvutisse trükituna ja nende suuline salvestis on ka saadaval, siis saab neid arvuti treenimiseks kasutada.

Näidendite ja filmide tekstid ja helisalvestised on samuti vastavuses kõne ja kiri. Samuti laulusõnad ja laulud, aga laulu hääldus ja rütm on tavakõnest erinev, nii et see ei pruugi arvutit aidata muus kui laulude tõlkimisel heli ja kirja vahel.

Audioraamatud, mille puhul ettelugemine vastab kirjapandule, on head pikad sama häälega loetud tekstid arvuti treenimiseks.

Maailma suuremate keelte edukamad masintõlkefirmad on ilmselt leidnud palju teisi treeningandmete hulki, mida oma programmide arendamiseks kasutada.