Algoritm on parem kui muusikakriitik

Spotify ostis hiljuti ära muusikasoovituste mootori firmalt -nimega Echo Nest ning nende tarkvara suudab hetkega öelda muusika kohta tunduvalt rohkem kui kõik Eesti muusikakriitikud kokku.

Echo Nesti algoritmi üks väljatöötajaid Brian Whitman selgitab, et üldiselt on olemas neli viisi, kuidas anda arvutile mõne muusikapala kohta piisavalt infot, nii et masin oskaks sellest teha numbrilisi järeldusi, mis kuulajatele paistavad esteetilisena:

• Info selle kohta, mida kasutajad selle looga teinud on: kui palju kuulanud, kui palju vahele jätnud, kui palju ostnud.

• Kriitika: kui palju kasutajaid on sellele loole või albumile kusagil hindeid andnud.

• Tekstianalüüs.

• Akustiline analüüs.

Lisaks proovib arvuti grupeerida samade muusikapalade puhul sarnase käitumisega inimesi. Nii et kui osa neist hakkab fanaatiliselt mingit uut lugu kuulama, siis on alust arvata, et see võib meeldida ka teistele sama rühma liikmetele. Ja see mudel toimib üllatavalt hästi. Me oleme arvutite jaoks palju etteaimatavamad, kui tahaksime uskuda. Amazoni soovitusmootor on ka selline, et pakub välja kaupu, mida teised sarnase ostukäitumisega inimesed on ostnud. Kuid Echo Nesti jaoks tekkis siin probleem.

Nimelt on Spotifys praegu saadaval üle kahekümne miljoni loo mitmelt miljonilt esitajalt. Pole mingit võimalust, et pelgalt kasutajate käitumist jälgides saaks kõigi nende kohta piisavalt infot soovitamiseks. Sest väga paljusid lugusid keegi ei kuulagi, aga need võivad olla head lood. Algoritm ei saa neid soovitada, sest nende kohta pole andmeid. Ja kui areenile ilmub täiesti uus artist? Läheb väga kaua aega, enne kui piisav hulk kasutajaid seda lugu kuulab või kuulamata jätab, et tekiksid andmed, mis võimaldaksid loo paigutada teatud kasutajate gruppi, mis omakorda võimaldaks seda soovitama hakata.

Selleks, et leida üles "tundmatud head lood", kasutab Echo Nest tekstianalüüsi ja akustilist analüüsi. Tekstianalüüsi robot roomab mööda internetti ja kogub igalt poolt mitmes keeles andmeid selle kohta, mida inimesed muusikapalade või artistide kohta räägivad. Proovib mõista sõnu ja emotsioone. Tekstivoost eristatakse olulised terminid, iga termin saab kindla väärtuse ja need haagitakse muusikapala külge.

Akustilise analüüsi käigus kuulab arvuti need kakskümmend miljonit pala läbi (piisava arvutusvõimsuse puhul võiks neid kas või samal ajal kuulata) ning lisab igale loole juurde andmed tempo, helistiku, volüümi kohta, aga proovib mõista ka põhimeloodiat, eristada pille, hinnata loo tantsitavust ja nii edasi. Ikka sõltumata sellest, kas esitaja puhul on tegu superstaari või asjaarmastajaga.

Lõpuks hindab algoritm iga kasutaja iga loo puhul kõiki neid infokillukesi eraldi, lisab sinna kindlasti veel midagi (näiteks geograafia) ja arvutab välja, millised palad teatud kuulajale kõige rohkem peaksid meeldima. See on puhas matemaatika ja statistika.

Pole teada, palju neid andmepunkte täpselt on, mida meie elu mõjutavates eri algoritmides kasutatakse, aga näiteks Google'i puhul räägitakse, et iga otsingu juures hindab algoritm üle viiekümne andmepunkti ja pakub siis välja tulemuse. Teoreetiliselt võiks iga otsingu korral tulemusi näidates hinnata kõike, mida isiku kohta internetis leidub: elukoht, sugu, vanus, otsingute ajalugu viimase kümne aasta jooksul, Gmaili postkasti sisu, nutitelefoniga pildistatu, sõbrad, töökoht jms. Mis toimub tegelikult, seda ei tea keegi, sest Google'i algoritm on sama suur saladus kui kokakoola retsept ja vähemalt sama hästi kaitstud.

Sama hästi on kaitstud Facebooki salajane algoritm. See otsustab, milliseid postitusi kasutajale infovoos näidatakse. Keegi ei tea, kuidas see täpselt toimib, aga paar nädalat tagasi lisati kaalu nendele uudis-tele, mida kasutajad ajalehtede rakendustest ise Facebooki jagavad, ja vähendati automaatselt postitavate äppide tähtsust. Aga kindlasti peab Facebook silmas ka seda, kes on kasutaja lähemad sõbrad, kellega ta tihedamini suhtleb, kelle postitused on üldiselt populaarsemad ja koguvad rohkem laike või kommentaare, jne.

Keskpärane lugu

Ühel hetkel paneb Spotify äripool idealistlikule võrdsustamisele käe ette. Ettevõtte huvi on ikkagi see, et süsteem soovitaks üsna suures koguses ka tuttavaid lugusid ja artiste. See on ühtlasi üks olulisemaid sisulisi asju, mida algoritmidele ette saab heita: nad eelistavad turvalisust riskile.

Teatud oludes on see üldiselt hea, näiteks lennukit maandades või isesõitvat autot juhtides, aga isegi nende asjade puhul on inimesele omane riskijanu ja valmidus mängida ning katsetada.

Kui autol külglibisemiskontroll "pooleldi väljas" olekusse lülitada, siis süttivad armatuurlaual ohutulukesed ja paremal juhul laseb automaatika kurvis veidi külje ette libistada. Siis saab algoritmi riskijanu täis ja ta sekkub otsustavalt, pidurdades õige rattaga õigel määral hoo maha, et avariid ei juhtuks. Algoritmidele ei meeldi risk, sest nad on loodud ennustatavate tulemuste saamiseks ja kraavi sõitmine ei ole üks neist.

Näiteks Netflix soovitab pigem filme, mille hindeks konkreetne kasutaja paneks pigem viiest neli punkti, kui et läheb sellise võimaluse peale, et vaataja hindab filmi kas viie või hoopis kahe punktiga. Net-flixi eesmärk ei ole kultuurilist katarsist tekitada, vaid panna kasutaja klikkima ja ostma. Et klient ei läheks ära. Et tal oleks keskmiselt tore olla.

Kui süsteemis toimetab inimene, siis tema tehtud valikud on palju julgemad ja tõenäosus katarsise saamiseks on märksa suurem. Nagu ka tõenäosus, et pakkumine läks täiesti mööda.

Pugejalikud programmid

Algoritmid on lipitsevad. Nende lõpmatu soov serveerida inimesele infot, mis talle meeldiks, võib lõppeda sellega, mida internetiaktivist Eli Pariser nimetab oma kuulsas raamatus "The Filter Bubble" (2011) filtrimulliks. Ta osutab ohule, et kui me elame päevast päeva meile meeldida püüdvate algoritmide mõju all, siis me näemegi ainult seda infot, mis meile meeldib. Selle tagajärjel tekib meil maailmast väärastunud pilt ja me ei arene enam.

Sedasama mehhanismi peetakse ka diktaatorite allakäigu alguseks: nad ümbritsevad end lipitsevate lakeidega, kes ei julge ülemust ebameeldiva infoga pahandada, ja sellest alates hakkavadki asjad vaikselt, aga kindlalt diktaatori jaoks viltu kiskuma.

Statistilise ajakirjanduse pioneer Nate Silver viitab oma raamatus "The Signal and the Noise" (2012) hoopis võimalusele, et mitte algoritmid, vaid inimesed ise moodustavad endale filtrimulli. Tema sõnul on inimestel kombeks hakata info ülekülluse korral tarbima seda selektiivselt, korjates sellest välja vaid need tükikesed, mis neile meeldivad, ja ignoreerides ülejäänut.

Samas on mitmed teised uurimused Pariseri hirmu ümber lükanud või vähemalt pole sellele kinnitust leitud. Enamik meie igapäevaseid infovooge sisaldab ebameeldivat infot enam kui küllaldaselt.

Arvutite ja algoritmide tulevik

Arvutid on juba mõnda aega teinud läbi vaikset ja väga olulist muutumist tööriistast kaaslaseks. Kuidagi alandav oleks pidada ülemaailmsesse võrku ühendatud välkkiireid infot valitsevaid seadmeid labaseks tööriistaks. Aastaks 2020 on meil mõnede ennustuste järgi 50 miljardit internetti ühendatud seadet ehk kordi rohkem kui praegu. Need seadmed vabastavad ennast kuuleka kasti staatusest ja hakkavad ise meie maailma kujundama.

Niikuinii need juba valitsevad kogu meie kohta käivat infot, kuid arvutid lihtsalt ei oska täna neid infokilde kokku panna ja järeldusi teha. Arvutid ütlevad meile praegu peamiselt seda, mida me nende käest küsime, aga asja mõte on see, et nad ütleks seda, mida me ei küsi, mida me ei oskagi küsida. Et nad kaevandaks pidevalt infot, leiaks seaduspärasusi ja erisusi, hoiataksid aegsasti ebatavaliste mustrite eest.

Perearsti arvuti näiteks ilmselt teab, kellel on suur tõenäosus haigestuda vähki või Alzheimeri tõppe, aga kuna me ei oska seda küsida, siis ei saa me ka vastust. Ilmselt teavad arvutid sedagi, kas paberlehed surevad välja, kas Putin ründab veel kord Ukrainat, kas Tallinki aktsia veel kunagi tõusma ka hakkab ja kas sa jääd hommikul koosolekule hiljaks, kui täna õhtul telefoni poole seitsmeks hommikul äratama paned. Me ei oska formuleerida juhendit ehk algoritmi, mis võimaldaks seda infot arvutitest kätte saada, aga toorinfo kõige selle teada saamiseks on üle maailma bittide ja baitide kujul tõenäoliselt olemas. Sest kogu maailm on praegu juba bittide ja baitide kujul olemas.

Algoritmist võib sõltuda inimelu

Seega, algoritmide tulevik on veel rohkem algoritme. Väga palju rohkem algoritme, sest me ise tahame neid. Me tahame, et arvutid näeks seda, mida meie ei näe, ja kuuleks seda, mida meie ei kuule. USA salateenistus näiteks tahab luua sarkasmialgoritmi ehk õpetada arvuteid sotsiaalmeedias tõsiseid ähvardusi ja niisama nalja eristama ning jaapanlased õpetasid hiljuti roboti nimega KOBIAN nalja tegema, võimaldades tal sensoritega ühendatud inimpubliku reaktsioone erinevatele naljadele mõõta ja sellest järeldusi teha.

Lõpetuseks väike algoritmiteemaline filosoofiaharjutus, mille üle viimasel ajal maailma IT-ringkondades arutatakse. Kui isesõitev auto satub tee peal avariiohtlikusse olukorda ja jõuab sekundi murdosa vältel järeldusele, et inimelu kaotust ära hoida pole võimalik, siis mida ta peaks tegema? Kas valima alati kõige väiksema hukkunute arvu ehk näiteks sõitma otsa täiesti süütule jalgratturile, et päästa oma pardal viibivad kaks inimest? Aga kui andmeid on rohkem? Näiteks kui jalgrattureid on kolm, aga nad on vanad ja purjus ja autos on kaks noort inimest? Või kui jalgrattur on üks ja noor, aga on mõrva eest mitu aastat vangis istunud? Või kui ohuolukorda satuvad kaks isesõitvat autot, ning need peavad omavahel ülikiire läbirääkimise käigus lahendama küsimuse, kes jääb ellu ja kes sureb?

Karta on, et sellise algoritmi peab välja töötama mõni inimene. Juba lähemal ajal.

Kaks aastat tagasi korraldas Facebook salajase uuringu, mille käigus muudeti ühe nädala jooksul ligi seitsmesaja tuhande kasutaja uudisvoogu (news feed) niimoodi, et osa kasutajaid nägid suhteliselt rohkem postitusi, kus oli tavalisest suurem hulk positiivseid sõnu ja õnnelikku fiilingut, ja teised nägid keskmisest kurvemat sisu.

Kui nädal oli möödas, siis postitasid samad kasutajad vastavalt kas tavalisest rohkem õnnelikumaid ja positiivseid või nukrameelseid sõnumeid. Sellist protsessi nimetatakse meeleolu ülekandeks või nakkuseks. Uuring avaldati auväärses ajakirjas Proceedings of the National Academy of Sciences ning tekkis laialdane arutelu nii uuringu legaalsuse kui eetilisuse üle.

Kui olete kunagi mõelnud, miks te kõigi oma sõprade postitusi oma uudisvoos ei näe, siis tõde on siin: Facebook valib sõprade postituste hulgast algoritmi alusel sellised, mille kohta algoritm arvab, et te tahaksite neid näha, et tuju ei läheks pahaks ja õnnelik kasutaja tuleks järgmisel päeval Facebooki tagasi. Seda otsustava algoritmi sisu on salajane ning eesmärk on manipuleerida kasutaja - sinu ja minu - meeleoluga.

Priit Hõbemägi

Algoritm on sammsammuline tegevusjuhis, juhend, ees-kiri mingi tegevuse sooritamiseks või eesmärgi saavutamiseks. Kõige sagedamini kasutatakse seda terminit matemaatilise ülesande lahendamiseks mõeldud eeskirja kohta. Algoritmi esitust mingis formaalses keeles, tavaliselt programmeerimiskeeles või masinakoodis, nimetatakse arvutiprogrammiks.

Sõna "algoritm" tuleb 9. sajandi araabia -matemaatiku Muḩammad ibn Mūsā al-Khwārizmī hüüdnimest "al-Horazmi" (horezmlane) tema sünnilinna, praeguses Usbekistanis asuva Hiiva tolleaegse nime järgi. Al-Horazmi tööd tõlgiti 12. sajandil ladina keelde ja autorinimeks märgiti Algorithmi. Selle töö kaudu jõudis Lääne-Euroopasse mitu võrrandite lahendamise eeskirja, mis kõik algasid fraasiga "nõnda kõneles -Algorithmi...". Selle järgi hakatigi üksikasjalikke tegutsemis-juhiseid -algoritmideks kutsuma.

Mittematemaatiliste algoritmidega puutume kokku iga päev, näiteks kokaraamatus olevad retseptid või sõbrale jäetud juhised kohtumispaika jõudmiseks. Algoritmid on ka koolis õpetatavad mitmekohaliste arvude kirjaliku liitmise, lahutamise, korrutamise ja jagamise eeskirjad.

(Vikipeedia)