Sildiarhiiv: hindamine

Doktorikraadide erinevusest

Isegi sama ülikooli sama eriala sama aasta doktorite tase võib olla väga erinev. Näiteks teadustöö hulk ühel inimesel kordades suurem kui teisel ja parema kvaliteediga. Mõni lõpetab nelja aastaga, mõni seitsmega. Need on veel “tavalised” doktorandid – ülejäänutest osa kukub välja, osal läheb 9-10 aastat. Majandusteaduse kiirusrekord on vist ühe aastaga Princetonis doktori teinud Glen Weyl, kel läks bakalaureuse algusest doktori lõpuni kokku viis aastat.
Mina lõpetasin doktori kuue aastaga ja minuga koos lõpetas veel kaks inimest samas valdkonnas (mikroökonoomika teoorias) viiega. Neil oli viie aastaga kogunenud rohkem ja paremat uurimistööd kui mul kuuega. Vastavalt said nad ka paremad töökohad.
Eri ülikoolide, erialade ja aastate lõikes on taseme erinevus muidugi palju suurem. Keskmine doktoriõppe kestus USAs paistab kasvavat aasta võrra iga 20 aasta kohta (USA Rahvusliku Teadusfondi andmed http://www.nsf.gov/statistics/infbrief/nsf06312/) ja ilmselt mitte inimeste vaimse taandarengu, vaid nõuete rangemaks muutumise tõttu. Rangemate nõuete täitja teab rohkem.
Kuna kraade on võimalik internetist või korrumpeerunumatest riikidest osta, algab doktorikraadiga inimeste teadmiste tase nullist. Maailma parimate doktorite tase on uskumatult hea. Nii et doktorite kvaliteedivahemik on nullist lõpmatuseni. Garantiid ei anna ülikooli tuntus, kuna diplomeid võltsitakse ja kõiki plagiaadijuhte ei avastata. Siiski on doktori tase minu kogemuse põhjal tugevas positiivses korrelatsioonis lõpetatud koha mainega ja tasemega ülikoolide järjestuses.
Tasemeerinevust võivad tekitada doktorikursused, mis mõnes kohas võtavad kaks aastat ränka rügamist, aga mõnes kohas puuduvad. Seal, kus puuduvad, alustavad doktorandid uurimistööd bakalaureusetaseme teadmistega ja vastav on ka uurimistöö tase. Kursusteta ei oska inimesed uusimaid meetodeid kasutada.
Kokkuvõttes pole mõtet hinnata inimesi doktorikraadi omamise põhjal, näiteks nõudes seda teatud ametikohtadel. Kui tahta uurimisoskust, peaks mõõtma inimese viimase aja uurimistööd. Täiuslikku mõõdikut pole, aga mingi idee annab kvaliteediga kaalutud viidete arv tema tööle (impact factor) viimase viie aasta jooksul. Aastakümnete tagune töö võib olla inimesel ununenud ja kasutas tõenäoliselt tänapäevasest erinevaid meetodeid.
Selle asemel, et doktorikraadi abil hinnata üldist intelligentsust (konsulteerimisfirmadesse palkamisel näiteks) võib proovida intelligentsustesti. Ainult uurimistöö kaudu hinnates annab ehk mingi pildi viidete arv aastas aktiivse uurijakarjääri ajal.

Arvutiajastu hindamissüsteemist

Tudengi hindamisel ülikoolis on probleem see, et tahaksime teada nii tudengi andekuse ja töökuse kombinatsiooni kui ka aine raskust, aga vaadeldav on ainult üks number – hinne. Kuna hinne H sõltub nii andekusest A kui aine raskusest R (näiteks funktsioonina H=A-R), ei saa andekust ja raskust ainult hinde põhjal eristada. Pole võimalik ühe võrrandi põhjal leida kahte muutujat.

Probleem leeveneb, kui vaadeldav on mitme tudengi hinne mitmes aines. Näiteks kui kaks tudengit, A ja B, võtavad mõlemad aineid C ja D, siis on meil vaatlustena neli hinnet ja tahame leida kahe tudengi andekust ja kahe aine raskust. Seega on meil neli võrrandit nelja tundmatuga ja ülesanne on lahendatav.

Kui tudengid valivad oma ained nii, et maksimeerida oma keskmist hinnet, siis tekib uus probleem – kui ainete raskused või hindamispõhimõtted pole teada, ei saa keskmise hinde põhjal tudengi andekust mõõta. Üks võtab lihtsaid aineid ja saab kõrge keskmise hinde, teine raskeid aineid ja saab madala keskmise hinde, aga andekus on sama. Seda kallutatust on püütud leevendada suhtelise hindamisega, mille korral näiteks parimad 10% aines saavad A, järgmised 20% B jne. Kui aine on raske, saavad kõik tudengid madala absoluutpunktisumma, aga kuna hinne tekib suhtelise punktisumma põhjal (näiteks jagatakse kõigi punktisumma aine parima tulemusega), siis on raske aine keskmine hinne sama, mis lihtsas aines.

Siit tekib aga uus mure, sest tudengid võivad püüda valida aineid, kus ülejäänud tudengid on keskmisest viletsamad. On lihtsam saada teistest paremat tulemust, kui teised on nõrgad. Kui tahame teada tudengi andekust, tuleb hinnet selle kallaku võrra korrigeerida, näiteks võttes arvesse teiste seda ainet võtvate tudengite keskmist hinnet (absoluutset või suhtelist) ülejäänud ainetes. Kui teised on nõrgad, on nende keskmine hinne muudes ainetes madal.

Aga siit tekib järgmine probleem, sest hinnet maksimeerivad tudengid tahavad võtta aineid, kus teised tudengid on keskmisest viletsamad ja võtavad aineid, mis on kas lihtsad või kus teised tudengid on samuti keskmisest viletsamad. Tundub, et iga probleemi lahendades tekib sellest uus probleem, ehk tegu on lõpmatu probleemijadaga. Igal lõplikul hinde korrigeerimise tasemel süsteemi on võimalik manipuleerida, püsides selle korrigeerimistasemest ühe sammu võrra ees – absoluuthinde puhul võttes lihtsaid aineid, suhtelise hinde puhul võttes rumalate tudengitega aineid, teiste hindega korrigeerimise puhul võttes aineid rumalate tudengitega, kes võtavad teisi lihtsaid aineid või teisi aineid rumalate tudengitega.

Kõiki ülaltoodud hindemanipulatsiooni probleeme saab lahendada korraga, tehes kõik korrigeerimised korraga. Sarnane probleem on ammu lahendatud otsingumootorite poolt – kõik veebilehed tahavad näida populaarsed, seega kuidas leida tegelikult populaarseid veebilehti. Üks võimalus oleks lugeda populaarseks need veebilehed, millele viitab palju teisi lehti. Aga siis tekiks veebilehe pidajatel motivatsioon luua palju võltsveebilehti, mis viitavad nende veebilehele. Võttes arvesse viitavate veebilehtede populaarsust, püsiksid veebilehtede omanikud ühe sammu ees, kui looksid võltsveebilehti, mis viitavad teistele võltsveebilehtedele, mis viitavad nende veebilehele. Ja viitavatele veebilehtedele viitavate veebilehtede populaarsuse arvesse võtmisel tehtaks veel üks samm edasi ja tõstetaks kunstlikult viitavatele veebilehtedele viitavate veebilehtede populaarsust.

Lahendus on korraga võtta arvesse kogu süsteemi. Veebilehtede puhul kogu veebilehtede ja linkide võrgustikku, tudengite hindamise puhul kogu tudengite ja ainete võrgustikku. Viimase puhul on tegemist kaht tüüpi sõlmedega võrgustikuga (bipartite graph), kus tudengid ja ained on võrgustiku sõlmed ning tudengi ja aine vahel on side, kui tudeng võtab seda ainet. Hindamise jaoks on vaid tarvis kõigi tudengite absoluutpunktisummadele kõigis ainetes rakendada veebilehtede populaarsusjärjestusse paneku algoritmi sarnast programmi. Kõigist hinnetest korraga on võimalik välja arvutada kõigi ainete raskused ja kõigi tudengite andekused, kui iga tudeng võtab vähemalt kaht ainet ja iga ainet võtab vähemalt kaks tudengit.

Realistlikkusest jääb ülaltoodud mudelil muidugi kõvasti puudu. Eeldusteks on ühemõõtmeline andekus, tudengite omavaheliste vastasmõjude ja tudengi-aine vastasmõjude puudumine, ainete valik vaid keskmise hinde maksimeerimiseks. Siiski, ühegi eelneva eelduse väärus ei tundu tekitavat kogu ülikooli hindeinfot arvesse võtva hindamissüsteemi kasutamisel negatiivset efekti.

Õpetajate aja kokkuhoiust tööjaotuse abil

Puudus headest õpetajatest on probleemiks mitmel juhul. Vähearenenud riik tahab edendada haridust, aga pole piisavalt haritud inimesi õpetajakohtadele ega ka raha nende palkamiseks väljastpoolt. Ettevõte tahab kasutada uut tehnoloogiat, milleks peab suurt hulka töötajaid koolitama, aga pole piisavalt inimesi, kes tehnoloogiat juba tunnevad ja võivad teistele õpetada. Riigis on struktuurne tööpuudus ja töötuid tuleks koolitada nende valdkondade jaoks, kus on tööjõupuudus, aga inimesed, kes neid valdkondi juba tunnevad, saavad kõrgemat palka seal töötades kui töötuid koolitades.

Ühest küljest oleks lahendus justkui olemas – internetis on palju õppematerjale paljude valdkondade kohta tasuta saadaval, tuleb ainult selgeks õppida. Näiteks maailma tippülikoolid on pannud osade ainekursuste materjalid täies mahus tasuta internetti. Probleemiks on aga, et neid tasuta materjale eriti ei kasutata.

Iseõppimisel on takistuseks esiteks motivatsioon, ehk inimesed ei suuda ennast sundida ise õppima ja vajavad õpetajat, kes jälgib ja kontrollib. Ka õppekaaslaste surve võib õppimisele kaasa aidata. Teiseks on küsimuste tekkides vaja valdkonda tundvat inimest vastama ja selgitama.

Üks võimalus kallist õpetajaressurssi kokku hoida on õppejõudude erinevad rollid lahutada: üks inimene õpetab, teine parandab töid, kolmas kirjutab eksami, neljas jälgib eksamitegemist. Valdkonna selgitamiseks ja küsimustele vastamiseks on vaja iga 20-30 õppuri kohta kvalifitseeritud inimest paariks tunniks nädalas, aga teiste õpetaja ülesannete täitmiseks nii pädevaid inimesi nii suurel hulgal vaja pole. Loengud võib tänapäeval kogu maailmale lugeda üks inimene, need saab videosse võtta ja netti üles panna. Nii piisab kogu maailma õppuritele ühest loengupidajast, kes võib siis olla maailma parim.

Ülesannete ja eksamite koostamiseks piisab samuti paarist-kolmest inimesest kogu maailmale, tingimusel, et eksam toimub kogu maailmas samal ajal. Mõnede ainevaldkondade osasid ülesandeid saab parandada automaatselt arvutiga (valikvastustega testid, numbrilise vastusega ülesanded).

Suurim hulk töötunde kulubki tööde parandamiseks, eksamite jälgimiseks ja küsimustele vastamiseks. Lisaks tuleb enamiku õppurite puhul neid tööle sundida ja nende õppimist jälgida. Eksami või õppimise jälgimiseks ei pea omama erialast kvalifikatsiooni, piisab, kui inimene on aus ja kohusetundlik.

Vastavat valdkonda tundvad inimesed saab niisiis kontsentreerida selgitamisele ja tööde parandamisele. Ka siin saab teha tööjaotuse – head suhtlejad ja kiired mõtlejad selgitama, omaette nokitsejad, täpsemad ja kohusetundlikumad töid parandama.

Pole põhjust, miks üks ja sama inimene peaks pidama loengut, selgitama ainet seminaris, kirjutama ülesanded, jälgima eksamit ja parandama töid. Aususe osas tuleb isegi kasuks, kui tööde parandajad pole neid kirjutanud õppureid kunagi kohanud ja saavad tööd kätte anonüümselt.

Rühmatöö kahjulikkusest

Rääkisin kunagi lõunalauas kahe doktorandiga rühmatöödest. Meil kõigil oli neist sarnane kogemus ja arvamus, kuna me kõik olime koolis ja bakalaureuseõppes targemate ja töökamate hulgas.

Rühmatöö põhimõtteks koolis oli, et kõik töö tegijad saavad sama hinde. Õpilased pidid ülesanded omavahel ära jagama või neid koos tegema, mis mõlemad tekitasid probleemi, et tegelikult teevad üks või kaks helgemat pead peaaegu kogu töö. Selle põhjuseks on nii võimekus kui motivatsioon. Võimekam teeb koos töötamisel selgelt rohkem, aga töö omavahelisel jagamisel võib isegi enamvähem võrdse tööjaotuse saada. Motivatsiooni poolelt on targematel enamasti rohkem akadeemilisi ambitsioone ja neile loeb hea hinde saamine rohkem, nii et nad on sunnitud rühmakaaslaste eest osa tööd ära tegema, kui ei taha, et teised nende hinde alla tõmbavad.

Rühmatöö tulemus on pingutusega kaalutud keskmine, seega targemate ja töökamate perspektiivist tuleb rühmatööd tehes rohkem pingutada ja tulemus on halvem, kui üksi töötades. See paneb helgemad pead rühmatööd vihkama.

Ilmselt on õpilastele rühmatöö andmise eesmärgiks harjutada nende koostööoskust, mida läheb tööturul vaja (palju töökuulutusi nõuab „meeskonnamängijat“ või „koostöövõimelist inimest“). Targemate puhul on tulemus tõenäoliselt vastupidine – koostööoskust treenitakse vähe, sest targim rühmaliige teeb nagunii peaaegu kogu töö, ja koostöösoov hävitatakse. Aga ka laisemate ja rumalamate õpilaste jaoks pole rühmatööl suuremat väärtust – see vaid õpetab neid teiste seljas liugu laskma. Naljaga pooleks on rühmatöö ainus hea külg kommunismivastane propaganda helgemate peade hulgas. Sümmeetriline halb külg on, et laisematele näidatakse, kuidas kommunism neile kasulik on.

Hinde keskmistamine mitme õppuri vahel on mõttekas ainult siis, kui nad on üsna täpselt samal tasemel nii võimekuse kui motivatsiooni poolest. Seega kui tahetakse panna inimesi rühmatööd tegema, peaks looma mitmekiiruselise õppeprogrammi, kus igas õppesuunas on koos sama targad ja töökad inimesed. Teine argument mitmekiiruselise programmi poolt oleks, et see lähendab olukorda individuaalsele õpetamisele – kiirematele kiiremini, aeglasematele aeglasemalt. Siis ei hakkaks ühtedel igav, teised ei jääks maha ega lööks käega. Vastuargument on muidugi kulukus – mida lähemal individuaalõppele, seda lähemal ka selle hinnale.

Mänguteoreetiliselt on ühise hindega rühmatöö nagu meeskonnapõhine tootmisprotsess, kus individuaalne panus pole mõõdetav. Seda kirjeldab üks tsiteeritumaid majandusteooria artikleid –  Holmströmi Moral hazard in teams. Artikkel kirjeldab, kuidas töö tulemuse ükskõik milline jagamine võtab vähemalt ühelt meeskonnaliikmelt motivatsiooni pingutamiseks. Palju järgnevat majandusteadust on püüdnud leida viise, kuidas sellises tootmisprotsessis säilitada meeskonnaliikmete motivatsioon tööks, aga siiani pole lahendust vist leitud.

Pimehindamine vs tausta arvestav hindamine

Taylor ja Yildirim (2011) uurivad, miks mõnes hindamisprotsessis ei anta hindajatele teavet kandidaadi omaduste ja tausta kohta (hindamine toimub hinnatava nime teadmata), aga mõnikord antakse. Taylori ja Yildirimi mudelis on kandidaadid eri võimekusega ja esitavad projekte, mille hulgast hindaja peab valima standardile vastavad. Hindaja saab ebatäpse signaali kandidaadi võimekuse ja tema projekti kvaliteedi kohta.

Kui enamik kandidaate on võimekad või signaal projekti kvaliteedi kohta on täpne, siis on parim variant pimehindamine. Vastupidisel juhul on kasulikum võtta kandidaadi tausta tema projekti hindamisel arvesse. Pimehindamine annab kandidaatidele parema motivatsiooni pingutamiseks, aga informeeritud hindamine hindajale täpsema projektivaliku.

Mudeli rakendamise näide kohtusüsteemis on, et tänavakuritegudes kasutatakse otsuse tegemisel ka kohtualuse isikuomadusi ja tausta, aga valgekraede kuritegudes (kelmus, kartell) otsustatakse ainult konkreetse teo põhjal. Esimesel juhul on põhiline õige otsuse tegemine, teisel juhul antud käitumise ärahoidmine.

Akadeemilises maailmas rakendatakse valmis artiklite retsenseerimisel tihti pimehindamist, tulevase uurimistöö plaanide hindamisel (näiteks grantide jagamisel) aga arvestatakse uurija kvalifikatsiooni ja eelnevat tööd. Selle põhjuseks on, et valmis töö põhjal on hinnang töö kvaliteedile üsna täpne, plaanitava töö korral mitte. Artiklite pimehindamisega püütakse anda motivatsiooni pingutamiseks, grantide informeeritud hindamisega soovitakse valida parimad projektid.

Sarnaselt mudeliga evolutsioonilisest kasulikkusfunktsiooni arengust, vähendavad nii liiga madal kui ka liiga kõrge standard motivatsiooni pingutada. Tolles mudelis kohandab evolutsioon kasulikkusfunktsiooni nii, et pingutamise ja mittepingutamise tulemuste vahe oleks võimalikult suur. Samamoodi on Taylori ja Yildirimi hindamismudelis hindamissüsteemi eesmärgiks võimalikult suure pingutuse motiveerimine, aga lisaks soovib hindaja ka parima lõpptulemuse valida.

Inimese tausta arvestamist on mainitud ka hulluindeksites. Üks soovitus hullude artiklite eristamiseks tavalistest artiklitest on võtta arvesse inimese tausta, näiteks haridust ja eelnevat tööd. Seega on tegu informeeritud hindamise, mitte pimehindamisega. Informeeritud hindamise põhjenduseks on täpsema teabe saamine praeguse projekti tõenäolise taseme kohta, et otsustada, kas seda on mõtet lugema hakata.