Sildiarhiiv: statistika

Arvulise väljenduse poolt

Polariseerumise, manipulatsiooni ja isiklike tülide vähendamiseks, teaduse laialdasemaks kasutamiseks ja täpsemaks teavitamiseks tuleks kasutada arvulisi väljendeid. Selle asemel, et öelda „tihti juhtub x”, mainida kui mitu korda päevas (kuus, aastas) x juhtub. Selmet hirmutada „väga halbade tagajärgedega”, tuleks selgitada kui mitu inimest ennustatavalt sureb või haigestub või kui suur on varaline kahju eurodes. „Ülikiire internetilubaduse asemel peaks ütlema, kui mitu megabitti sekundis kui suure protsendi ajast ja milline on trahv lubajale kui ta lubatud kiirust lubatud osa ajast ei paku.

Ebamääraseid väljendeid kasutavad poliitikud ja muud manipulaatorid selleks, et hiljem oleks neil võimalik lubadustest välja vingerdada neid teisiti tõlgendades. Samuti ajavad ümmargust juttu ekspertideks tituleeritud arvajad ajakirjanduses, et nende ennustustäpsust tagantjärgi kontrollida ei saaks. Mida teavad nad enda ennustusoskuse ja lubadusepidamise kohta, et kardavad selle mõõtmist? Arvulised väljendid oleksid selged, täpsed, lühidad ja hiljem tegelikkusega võrreldavad.

Suhteterapeudid soovitavad samuti rääkida konkreetsest käitumisest, mitte süüdistada käituja üldisi omadusi. Keskendu probleemile, mitte inimesele. Arvuline väljendusviis aitab üldsõnalist lahmimist vältida ja tundepuhanguid vähendada. Öeldes mitte „sa teed kogu aeg nii” või „sa alati” või „sa pole kunagi”, vaid kui mitu korda päevas kui mitme päeva jooksul ebameeldiv käitumine toimus, täpsustab probleemi ulatust ja on tõsiseltvõetavam. Kui inimene on juba mitme päeva jooksul arvet pidanud, siis järelikult mõjutab käitumine teda oluliselt ja tal on olnud aega selle üle rahulikult järele mõelda.

Vastandumise tekitajad esitavad radikaalseid väiteid nagu „kindlasti hävitab kultuuri” ja „alati tekitab kuritegevust”. Nad kas ise ei usu neid sõnu või peavad tõepoolest rumalad olema. Selle paljastamiseks sobib arvuliste andmete ja tõenäosushinnangute nõudmine. Kui suure summa peale ja kui ebavõrdset kihlvedu oled nõus sõlmima, et kuritegude arv järgmisel aastal on suurem kui n? Millised kultuuri mõõdikud ja kui palju sinu arvates vähenevad ja kui palju peale kihla veame? Rumal vastanduja veab kihla ja kaotab raha. Kui kihlvedu on avalik, võib tulemuse üldsusele teadaandmine ka vähendada radikaalsete väidete uskumist. Kaval valetaja keeldub kihlveost, leides mingi vabanduse. Ka keeldumise avalikustamine aitab kõigutada usku lõhestajate väidetesse.

Manipulatsioonis ja lobitöös on kindla kõneviisiga ebamäärased ja tundelised väited tavalised: „ilma riigi abita ei suuda ellu jääda”, „väga perspektiivikas majandusharu, vaja vaid riigi tuge”, „ei suuda toetuseta toitu lauale panna”, „tahavad kägistada tervet tegevusala”. Nõudes andmeid, kui mitu inimest on aastas surnud selle toetuse, subsiidiumi, laenu mittesaamise otsesel tagajärjel, paljastame väitja valelikkuse. Pakkudes kihlvedu, et ulatuslikum reguleerimine, toetuse kaotamine või muu antud majandusharule ebasoodne otsus ei vii kõigi selle valdkonna ettevõtete sulgumiseni, teenime kas raha või avalikustame, et lobistaja ise ei usu oma äärmuslikku juttu.

Üldsõnalist hämamist tuleks eirata – see pole informatiivne. Nõudke arvulisi väiteid!

Eesti Digiregistratuuri järgi kohaletuleku ennustamine

Raviasutuse broneerimis- ja vastuvõtusüsteem võiks Digiregistratuuri automaatselt kirja panna, kas patsient tuli kokkulepitud ajal kohale ja kas hilines. Nende andmete põhjal saaks ennustada iga inimese kohaletulekut, mis võimaldab raviasutusel aega paremini planeerida. Esialgu kui andmeid vähe, oleks ennustus inimrühmade kohta. Näiteks, et keskmine patsient tuleb tõenäosusega x, pensioniealised tõenäosusega y, naised tõenäosusega z.

Ajaplaneerimise osas võib panna väiksema tõenäosusega saabuvad patsiendid päeva lõppu või lõunaajale, nii et nende mitteilmumise korral saavad meditsiinitöötajad varem koju minna või pikema lõuna. Samuti võib madala tõenäosusega kohale tulevaid patsiente rohkem ühele päevale panna (väiksemate ajavahedega), sest tõenäosus, et vähemalt üks neist ei tule, on kokkuvõttes suur, ja selle arvelt pikeneb teiste jaoks saada olev aeg.

Pidevalt hilinevale patsiendile võib pakkuda tegelikult vaba olevast varasemat aega, et neutraliseerida tema hilinemine. Näiteks kui inimene üldiselt 10 minutit hilineb ja arst on vaba kell 11, siis pakkuda sellele inimesele aega 10:50, muidugi talle teatamata, et arst tegelikult kell 11 vabaneb. See inimene tõenäoliselt hilineb nagu alati ja jõuabki kella 11ks nagu arstile kõige paremini sobib. Arstil on siis vähem tühja ootamist ja hilisemad patsiendid saab loodetavasti õigel ajal vastu võtta, mitte hilinejale kuluva aja võrra hiljem. Kokku säästab broneeringute kohandamine patsientide hilinemiskäitumisega paljude inimeste aega.

Sama efektiivsustõus on võimalik kõigis järjekorra- ja broneerimissüsteemides. Lisaks parandab mitme valdkonna hilinemisandmete ühendamine süsteemi ennustusvõimet, sest inimene, kes hilineb tihti üht tüüpi kokkusaamistele, hilineb tõenäoliselt ka teistele. Kes ei pea kinni arstiaegadest, see ilmselt ka töökoosolekutest ja sõpradega kohtumistest, võib kasutamata jätta üritusepileti jne. Kui ta esimest korda arstiaja kinni paneb, siis pole varasemaid arstivisiite, mille põhjal ta hilinemiskäitumist ennustada, küll aga võib olla palju muid sündmusi, mis on tema kohta informatiivsed.

Pole vaja keskset broneeringusüsteemi ja andmebaasi inimeste hilinemise kohta – piisab sotsiaalvõrgustikust ja telefonide lähedusandmetest, mida kasutab näiteks bluetoothi-põhine Hoia äpp. Sõprade telefonid registreerivad, millal tuttava telefon nende lähedusse saabus, võrdlevad seda kalendriäpis kokku lepitud kohtumisajaga ja salvestavad automaatselt, kas see tuttav tuli kokkulepitud kohtumisele ja millise hilinemisega. Igaüks saab enda sõprade kohta salvestatud andmete põhjal nende saabumise tõenäosust ja aega ennustada. See aitab üritusi planeerida ja inimese üldist usaldusväärsust hinnata. Kes tihti hilineb, võib ka muid lubadusi harvem pidada – ei tasu ehk talle raha laenata.

Eesti Digiloo põhjal haiguste ennustamine

Masinõppega saaks Digiloo põhjal ennustada patsiendi haigusi, vaadates samade demograafiliste näitajatega inimesi, kel varem oli sarnase algusega haiguslugu Digiloos ja kuidas see haiguslugu jätkus. Sellega ei pea tegelema riigiametnikud ega eestlased – kui anda ligipääs, siis rahvusvahelised teadlased hea meelega uuriksid Digiloo andmeid tasuta ja saaksid endale sellega publikatsioone. Tulemuste põhjal võib rahvatervist ennustada, inimestele hoiatusi ja soovitusi jagada, neid uuringutele kutsuda ja ennetavat ravi määrata.

Andmetele endile ei pea isegi ligipääsu andma – teadlastelt saadud statistikaprogrammi võib lihtsalt andmete peal jooksutada ja ainult tulemused teadlastele väljastada. Ise andmeid nägemata saab neid ometi uurida – selle valdkonna nimi on turvaline mitmepoolne arvutus (secure multiparty computation). Uurimise lihtsustamiseks tuleks avaldada andmete struktuur: kui mitu rida ja veergu, mis formaadis igas reas ja veerus olev info on (tekst, number, kuupäev). Piisab, kui laadida andmed tabelarvutusprogrammi ja kustutada tabelite sisu, jättes vaid ridade ja veergude pealkirjad. Programm peab lahtrite formaadi ise meeles, nii et selle tühjade tabelitega faili põhjal saab uurija andmete formaadi teada.

Kasutaja jaoks on Digilugu praegu üsna ebamugav ja allalaadimisvaenulik. Eraldi peab igal epikriisil klõpsama, ootama, kuni see avaneb, avama veel peidetud väljad klõpsates „Vaata kirjeldust” ja alles siis saab leheküljel laiali olevatest tekstidest ehk midagi välja lugeda. Saatekirjad ja nende vastused on eraldi. Pildimaterjali (röntgeni, ultraheli, silmapildistamise tulemusi) enamik asutusi üles ei laadi. Epikriisid ja saatekirjad on ruudustikku paigutatud, mitte ajalises järjestuses.

Enamiku inimeste kohta on Digiloos nii vähe materjali, et selle võiks kõik ühel lehel ajalises järjestuses tekstina esitada. Lisaks võiks selle teha tabelarvutusprogrammi tabelina allalaaditavaks, mis võimaldaks inimestel ühendada terviseandmed näiteks oma toitumis- ja trennipäevikuga ja nende vahel statistilisi seoseid leida.

Kui mingi kategooria, nt „Teatised” all ühtegi dokumenti pole, siis võiks selle halliks muuta, et kasutaja ei peaks teavet otsides asjatult klõpsima, ootama ja alles siis nägema, et „Päringu tingimustele vastavaid dokumente ei leitud ”.

Sisselogimisel võiks Digilugu avalehe asemel näidata viimaseid lisatud andmeid, näiteks uuringu tulemust. Tõenäoliselt logib kasutaja sisse viimaste andmete vaatamiseks, nii et nende näitamine kohe alguses säästab aega.

Sääsetõrjevahendite katse enda peal

Et teada, milline sääsetõrjevahend kõige paremini töötab, tegin järgneva katse. Panin eri kehaosadele erinevaid vahendeid, jätsin mõne ka kaitseta (kontrollpiirkonnaks), kirjutasin piirkonnad ja neile pandud vahendid tabelisse. Püüdsin siis unustada, mis tõrjevahend mis kehaosale sai, et mitte alateadlikult mõõtmistulemusi kallutada. Läksin seejärel võssa kraavi äärde seisma, käed laiali ja kirjutasin telefoni üles kõik sääskede maandumised, mida märkasin. Murphy seadus kehtis jälle – kui mul sääski vaja oli, siis pidin neid tükk aega ootama ja neid lendas vähe kohale. Pikka imemist ma üheltki märgatud sääselt ei kannatanud – lõin ta laiaks või ajasin ära, nii et vähendasin ka ise uuringu valimi suurust.

Sääsed eelistasid selgelt mu kehal võimalikult madalal maanduda. Kõik tõrjevahendid töötasid enamvähem sarnase efektiivsusega ja neist oli kasu – kaitsevahendita nahal maandus palju rohkem sääski kui sümmeetrilise kehapiirkonna kaitstud nahal.

Metsavendlus oleks tänapäevase tehnoloogia vastu edutu

Infrapunakaameratega droonid ja luurelennukid avastaksid metsast inimesesuurused soojad objektid, eriti talvel lehtedeta puude vahelt ja lume taustal. Veel lihtsam oleks lõket avastada, kuna temperatuurikontrast ümbrusega on suurem, nii et talvel oleks metsavendadel valik külmunud toidu ja oma asukoha äraandmise vahel. Isegi maa-aluses punkris tuld tehes peab sooja suitsu kusagile välja laskma, mis infrapunakaameraga näha on. Kui suits välisõhu temperatuurile jahutada, siis on selle tihedus ka välisõhuga sama, nii et see ei tõuse enam ülespoole.

Maastikul liikuva inimkeha soojust on raske varjata, sest ennast soojusisolatsioonimaterjali sisse mähkides läheb palavaks. Võibolla kivivillast ja hõbepaberist vihmavari aitaks vältida ülespoole kiirgavat soojust, aga see vihmavari võib mõnel teisel elektromagnetilise spektri osal näha olla.

Masinõppimine suurelt valimilt aero- ja satelliidifotodelt aitaks loodusest inimtegevuse jälgi tuvastada. Seda valimit tehisintellekti treenimiseks saab tekitada, käskides paljudel väikestel sõdurirühmadel Venemaa avarustes varjatud laagreid ja punkreid ehitada, preemiatega parimatele varjajatele. Siis pildistada õhust neid teadaolevatel koordinaatidel laagreid ja negatiivse kontrollgrupina laagrivaba loodust, lasta arvutil klassifitseerida, kumb on kumb ja seeläbi õppida, mis tunnused tegelikku laagrit tavalisest loodusest eristavad.

USA ebaedu Afganistanis tuleb demokraatliku riigi soovimatusest liiga palju tsiviilelanikke tappa – õhust võib küll tuvastada looduses liikuvad inimesed, aga vaenlase võitlejate eristamine neutraalsetest karjustest on keeruline. Mägisel maastikul pole ka õhust kõik punktid vaadeldavad, näiteks rada eenduva kaljuserva all.

Ka Nõukogude Liit ei tahtnud Afganistani liiga inimtühjaks teha, sest soovis jätta muljet, et on seal afgaanide kutsel sõbralikult kommunismi ehitamas. Lenin või Stalin oleks Afganistanis võitnud oma tavalise taktikaga: küüditada liiga palju vastu hakkavate piirkondade inimesed Siberisse. Tänapäeval saaks geriljasid maha suruda ka vähemdrastiliste vahenditega – keelata loata looduses viibimine, ettekäändeks näiteks maastikupõlengute ennetamine või looduskaitse, siis tuvastada õhust looduses viibijad, jälitada drooniga neid koduni või punkrini ja nad kas kodus arreteerida või punkris droonirünnakuga tappa. Afganistani koopad on õhulöökidele üsna vastupidavad, nii et seal peaks maastikul hulkuvad inimesed enne koobast neutraliseerima. Kodus istuv rahvas jääks enamasti puutumata, mis suurendaks motivatsiooni asulas püsida. Seevastu valimatu tapmine või küüditamine paneks inimesed vastu hakkama põhimõttel „surm siin või Siberis”.

Eesti-taolisel tasasel maal on mägede analoogiks linnad: katuseserva all kõndijad on õhust raskestinähtavad, hoonete sisemused on nagu koopad paljude sissepääsudega. Võitlejate eristamine linnaelanikest on keeruline. Selleks oleks vaja tuvastada, kes kannab kaasas tulirelvakujulisi metallobjekte, aga need saaks maskeerida metallkarkudeks, järelveetava kohvri käepidemeks, jalgrattaraamiks jne. Lennujaamastiilis metallidetektorväravad tänavatel oleksid üsna kulukad ja neist saaks läbi majade, aedade ja kanalisatsiooni ümber liikuda.

Teadus ei anna tõde, küll aga parima signaali selle kohta

Arvan, et eksisteerib tõde – kuidas universumis asjad tegelikult on – aga see eksistents on usuküsimus. Eeldame, et tõde on olemas. Gödeli võimatusteoreemi kohaselt pole kõik tõesed väited tõestatavad. Seega teadus ei saa tõestada kõiki tõeseid väiteid.

Vaatame siis ainult matemaatiliselt tõestatavaid väiteid, mis peavad olema tõesed, aga ei hõlma kõiki tõeseid väiteid. Inimkonna praegune teaduse tase on kaugel sellest, et jõuda kõigi tõestatavate väidete tõestamiseni. Lisaks on minevik näidanud, et teaduses tehakse aeg-ajalt vigu. Seetõttu on tõenäoline, et ka praeguses teaduses on vigu, ehk teadus on „tõestanud“ ka mõned väärad väited. Loodetavasti lükatakse need väärad tõestused tulevikus ümber.

Enamik teadustööd väiteid ei tõesta (matemaatilise loogika mõistes), vaid pakub statistilist hinnangut tulemuste õigsuse kohta. Teaduse areng tähendab veapiiride kitsenemist ja täpsemaid tõenäosushinnanguid suurema arvu väidete kohta. Kui teadus tulemust ei tõesta, vaid annab statistilise hinnangu, siis ei tea inimkond antud asjas tõde, vaid ainult tõenäosuslikku signaali tõe kohta.

Miks siis kasutada teadust? Sest see on parim tõe kohta saadaolev signaal, mis inimkonnal on. „Parim signaal“ on informatsiooniteoreetiline mõiste, mis tähendab, et kõik teised signaalid on antud signaali mürarikkamad variandid. Kui tahta teha otsust, mille tulemus sõltub sellest, milline on tegelik tõde, siis parima oodatava tulemuse saamiseks tuleks järgida parimat signaali. Mõni teine signaal võib mõnel juhul anda sama hea tulemuse kui parim signaal, aga ei saa kunagi anda paremat, sest teise signaali võime saada parimast signaalist osa teabe ära viskamisel.

Teadusvastaste üks tavalisi demagoogiavõtteid on: „Kas sa arvad, et teadus teab kõike? Aga miks siis teadus pikka aega uskus valeväidet X, mis nüüdseks on ümber lükatud?“ Neid hiljem ümber lükatud väiteid on palju, sest enamjaolt annab teadus vaid tõenäosusliku tulemuse ja tulemuste suure hulga tõttu on ka ümber lükatud tulemusi arvukalt. Üks võimalik vastus ülaltoodud demagoogiavõttele ongi, et teadus ei tea muidugi kõike, aga on statistiliselt parim signaal tõe kohta, mis meil on. Rumal oleks jätta kasutamata osa inimkonnal olemas olevast infost, otsustades mingi halvema signaali (usu, ideoloogia, naabri jutu, internetifoorumi postituste) põhjal. Agressiivsem ja demagoogilisem vastus oleks: „Aga kas sina arvad, et sinu usk/ideoloogia/kuulujutt teab kõike? Miks siis see allikas pikka aega uskus valeväidet Z, mis nüüdseks on ümber lükatud? Teadus esitab vähem valeväiteid ja lükkab need kiiremini ümber, kui sinu allikas. Aeg-ajalt võib teadus eksida ja sinu allikas sama asja kohta õiget infot anda, aga see on harv juhus, keskmiselt see nii ei ole.“ 

Bayesi reeglit võiks õpetada algkoolis

Veerpalu dopingujuhtum on järjekordne näide selle kohta, et inimesed ei mõista valepositiivseid ja valenegatiivseid tulemusi, ehk üldisemalt tinglikku tõenäosust. Ometi on tingliku tõenäosuse valdamine õige otsustamise juures üks olulisemaid tegureid. Näiteks Pratt ja kaasautorid (1964) tõestavad, et otsustamine, mis rahuldab väga nõrku eeldusi mõistlikkuse kohta stiilis „kui A on eelistatud B-le ja B C-le, siis A on eelistatud C-le“, peab järgima Bayesi reeglit.

Kuna Bayesi reegli intuitiivne seletus ei nõua mingit matemaatilist tausta ja reegel ise on nii laialt kasutatav ja oluline, võiks seda õpetada algkoolis või lausa lasteaias. Oot-oot, ütleb nüüd lugeja, Bayesi reegli jaoks on vaja korrutamist-jagamist, mis ometi on matemaatika ja võib ka mõnele täiskasvanule üle jõu käia. Sellest vastuväitest hiilisin ma eelnevalt aga kavalasti mööda, öeldes „intuitiivne seletus“, mitte lihtsalt reegel ise. Ka on osa matemaatikat lihtsam, kui esmapilgul paistab, näiteks on võimalik kuueaastasele lineaarvõrrandite lahendamist õpetada.

Bayesi reegli intuitiivne seletus võib sisaldada järgmisi osi. Joonistatakse ruut, jagatakse neljaks ruuduks ja seletatakse, et ülemises reas on õige vastus jah, alumises ei, vasakus tulbas on kellegi väidetav vastus jah, paremas ei. Nii et tuleb arvestada kõiki nelja varianti. Kui me nüüd teame, et keegi väidab kogu aeg jah, mida me saame tema jah-väitest tõe kohta järeldada? Mitte midagi. Samuti kellegi väitest, kes ütleb kogu aeg ei. Kui väide on kogu aeg õige, pole millegi üle arutleda, vastus on teada. Samuti kui väide on kogu aeg vale.

Kui on kaks inimest ja üks neist eksib tihedamini kui teine (näiteks teisel on kogu aeg õigus) ja nad väidavad vastupidiseid asju, kumba peaksime rohkem uskuma? Kui meil on teada neist kahest ainult ühe väide (jah), siis kumma inimese jah-väite puhul on meil rohkem usku, et tõde on „jah“?

Kui on kaks inimest, kes vahel räägivad tõtt, vahel valetavad sedamoodi, et esimene väidab „jah“ ka siis, kui vastus on ei, kuid mitte kunagi „ei“ kui vastus on jah ja teine väidab vahel „ei“ ka siis, kui vastus on jah, kuid mitte kunagi „jah“ kui vastus on ei, siis kumma inimese väite „jah“ peale peaksime rohkem uskuma, et tõde on „jah“? Järgmiseks võib võtta kaks inimest, kes võivad valetada mõlemas suunas, aga üks valetab rohkem jah-suunas, teine rohkem ei-suunas ja korrata küsimust.

Siis võib veel teha sissejuhatuse hulgateooriasse, joonistades lõikuvaid ringe ja rääkides noolemängust: kui teame, et nool langes esimesse ringi, kas me teame, et langes teise ringi? Kui teame, et langes esimesse ringi, kas teame, et ei langenud teise ringi? Kui kolm ringi lõikuvad ja kahe esimese ühisosa on ilmselgelt suurem kui teise ja kolmanda ning meile öeldakse, et nool langes teise ringi, siis kas peaksime rohkem uskuma, et langes esimesse või rohkem, et langes kolmandasse.

Ja lõpueksam on Monty Halli küsimus. Kes küsimust varem näinud pole ja esimese korraga õigesti vastab, saab kommi 🙂