Strani

nedelja, 12. februar 2023

Se umetna inteligenca uči na vas?

Najbrž. Ali bolj natančno – ni izključeno.



O generativni umetni inteligenci v umetnosti – njeni moči, dilemah in možnih rešitvah - je že bilo govora. Gre za preboj strojnega učenja, kjer algoritmi s pretvarjanjem besedila v slike oblikujejo unikatne, nove stvaritve še do nedavnega nepredstavljivih razsežnosti.

A kje se ti algoritmi »učijo«? Podobno kot se učimo ljudje, tudi modeli strojnega učenja gradijo na že obstoječem znanju – tako kot vsa naša znanost stoji na ramenih svojih predhodnikov, tudi algoritmi ustvarjajo nadgradnje na tistem, kar že poznamo. Zagotovo ne edina, pa vendar bistvena in v nebo vpijoča razlika je – v učinkovitosti. 

Modeli kot so Stable Diffusion, DALL-E in številni drugi gradijo na izjemno obsežnih zbirkah podatkov, praviloma prosto pridobljenih z interneta. Ena izmed najobširnejših (in zato tudi pogosto uporabljenih) zbirk je zagotovo LAION - javno dostopna zbirka odprtokodnih naborov podatkov, kod in modelov strojnega učenja. Gre za projekt neprofitne organizacije s sedežem v Hamburgu (Nemčija – kar je pomembno zlasti glede veljavnosti GDPR), katere cilj je dati obsežne modele strojnega učenja, nabore podatkov in povezano kodo na voljo širši javnosti z namenom, da se »ne bi ves čas morali učiti iz nič« - torej da se že zbrani podatki lahko vedno znova uporabijo za učenje. Kot pravijo, verjamejo, da »imajo raziskave strojnega učenja in njihove aplikacije potencial za ogromen pozitiven vpliv na naš svet« in da jih je v tem smislu preprosto nujno »demokratizirati«.

Ker gre (a) za javno dostopno zbirko podatkov, do katere ima vsakdo izmed nas dostop, in ker so (b) vsi podatki zbrani zgolj in izključno iz javno dostopnih virov, do katerih ima prav tako vsakdo izmed nas dostop, obenem pa (c) med njimi niso tvorjene povezave, ki bi sodile v obdelavo osebnih podatkov, je logiki koristnosti nadejane »demokratizacije« težko a priori oporekati. Nenazadnje – kako pa se učimo mi? Znanje osvajamo s preučevanjem obstoječih dosežkov - njihovo analizo, razumevanjem, memoriziranjem. Na tako pridobljenem vedenju nato iščemo nove vzorce, nove možnosti in tvorimo nove povezave – in če smo res uspešni, obstoječe znanje nadgradimo in poznanemu corpus scientia dodamo novo vrednost.

Le da je umetna inteligenca pri tem, kot rečeno – učinkovitejša.

Zadnji nabor podatkov, ki je na voljo za učenje umetne inteligence, vsebuje več kot 5 milijard parov slika-besedilo (LIAON5B). Še več, ti pari so filtrirani, indeksirani, dopuščajo ustvarjanje podmnožic in so nasploh »raziskovalno prijazni«. (1)

Toda kaj se zgodi, če se med tem »delovnim materialom« znajde tudi vaša slika? 

V kolikor je vaša fotografija javno dostopna, recimo na spletni strani vašega delodajalca pod rubriko »Naši sodelavci«, je seveda percepcija povsem drugačna, kot če gre za primer vaše slike z, denimo, obravnave pri zdravniku.

Ars Technica (2) je že septembra 2022 poročala o enem izmed primerov problematične uporabe nabora podatkov z medicinsko konotacijo: umetnica Lapine, ki se v svojem delovanju srečuje tudi z UI, je v naboru podatkov LAION5B našla svojo fotografijo z medicinske obravnave. Gre za 10 let staro fotografijo, ki jo je odkrila šele posredno: z uporabo iskalnika Have I been Trained je na spletnem mestu naložila svojo nedavno fotografijo in s funkcijo povratnega iskanja slik v naboru LAION5B odkrila niz dveh zdravstvenih fotografij svojega obraza prej in potem, torej pred in po posegu, katerih uporabo je eksplicitno dovolila svojemu zdravniku zgolj in samo za namen klinične dokumentacije.


Postopek iskanja je imel torej več filtrov – prvič, Lapine ni iskala slik po svojem imenu. Upravičeno lahko domnevamo, da jih pod svojim imenom niti ne bi našla. Zdravstveni podatki pod okriljem pravnega varstva osebnih podatkov veljajo za posebej občutljive, saj posegajo v temeljno človekovo pravico do zasebnosti, in so v skladu s tem tudi posebej varovani. V Evropi gre v skladu s Splošno uredbo o varstvu podatkov (3) (ang. General Data Protection Regulation, torej vsem dobro znani GDPR) za »posebno vrsto osebnih podatkov«, katerih obdelava je praviloma prepovedana. Povedano drugače: zdravstvene podatke je dovoljeno obdelovati le izjemoma, pod posebnimi pogoji in v taksativno naštetih primerih. V konkretnem primeru Lapine se zdita relevantni zlasti dve točki 2. odst. 9. člena GDPR, ki takšno izjemno obdelovanja zdravstvenih podatkov (pod dodatnimi, ostrejšimi pogoji) dopuščata v primerih, ko posameznik, na katerega se osebni podatki nanašajo, da »izrecno privolitev v obdelavo navedenih osebnih podatkov za enega ali več določenih namenov« (tč. a) oz. je obdelava »potrebna za namene arhiviranja v javnem interesu, za znanstveno- ali zgodovinskoraziskovalne namene ali statistične namene« (tč. j). 

Toda, kot rečeno, Lapine ni iskala podatka z besedilnim pozivom, iskala ga je s slikovnim. Nobenega dvoma ni, da okoliščina »iskanja« v nobenem smislu ne vpliva, ne more, pa tudi ne sme vplivati na naravo zdravstvenega podatka kot posebno varovane kategorije; zgolj okoliščina, da tehnološki razvoj in zmogljivosti umetne inteligence dopuščajo razbiranje in povezovanje podatkov, ki bi bili še nedavno tega povsem nepovezljivi – in bi kot takšni morda celo upravičeno zapadli pod sistem znanstveno-raziskovalne izjeme - nima nikakršnega vpliva na problematičnost povezane uporabe. 

Srčika problema je namreč prav tu – v povezljivosti. V smislu 4. čl. GDPR (4) je osebni podatek »katerakoli informacija v zvezi z določenim ali določljivim posameznikom« (1. odst.), obdelava pa, primeroma, »zbiranje, ˙(…) , shranjevanje, priklic, vpogled, uporaba, razkritje s posredovanjem, razširjanje ali drugačno omogočanje dostopa« (2. odst. GDPR). Denimo, da je bil Lapinin niz fotografij »prej in potem« narejen zgolj in samo, kot je povedala sama, za namene klinične dokumentacije. Ali bi bilo vseeno dopustno vzeti fotografijo izven konteksta, odstraniti vse »osebno določljive« komponente (kot na primer najočitnejše, a ne izključne: ime in priimek, podatke o rojstvu ipd.), in taisto fotografijo uporabiti v izobraževalne namene? Ne? Kaj pa, če bi za nameček na fotografiji prekrili še oči, da bi zakrili njeno identiteto? Glede na zmogljivosti algoritmov za prepoznavanje obrazov, ki so se razvili prav s pomočjo UI, kot na primer MegaFace oziroma njegova komercialna različica ClearView (5), upravičeno domnevamo, da tudi preveza ne bi bila več dovolj.

A tudi če stopimo korak nazaj: Dejstvo je, da se zdravstveni podatki v osamitvi od osebnega podatka, ki bi omogočal identifikacijo posameznika, redno uporabljajo v namene znanosti in študijske namene – in to ne le v medicini, v vseh znanstvenih vejah. Povsem jasno je, da bi brez preučevanja dejanskih krvnih vzorcev velik del farmakologije ostal slep. Nova dognanja in novi dosežki lahko temeljijo le na dejstvih – in ta so predmet preučevanja, poznavanja in prepoznavanja. 

In nenazadnje: problematika ni nova, niti izvorni greh ni v umetni inteligenci. Kot je o razširjenosti medicinskih fotografij pacientov na spletu za The Vice povedal dr. Zack Marshall, izredni profesor Univerze v Calgaryju, gre za pogosto prakso. Raziskava je pokazala, da je kar v 70 % obravnavanih primerov vsaj ena izmed medicinskih fotografij, narejenih tekom kliničnih obravnav, končala na spletu – in to praviloma brez soglasja ali vedenja pacienta. Opozarja tudi, da velja podobna praksa v medicinskih znanstvenih publikacijah – in to že dosti dlje od obstoja samega spleta.

Pa vendar se zdi, da bi morali imeli posamezniki večji nadzor nad lastnimi podatki, s katerimi razpolagajo algoritmi. Eden izmed prvih poskusov, ki je bil sicer razvit predvsem za umetnike, je bil prav že omenjeni Have I been trained. Iskalnik je del Spawning AI, projekta, ki poskuša umetnikom ponuditi možnost nadzora nad »lastništvom njihovih podatkov v procesu usposabljanja umetne inteligence«. V eksplozivnem razvoju UI se je namreč izkazalo, da učenje algoritmov odpira vrsto pravnih, moralnih in etičnih dilem, še zlasti v kolikor se ti »učijo« na delih še živečih umetnikov ali pa na delih, ki so pod zaščito avtorsko-pravnega režima. Samo ime »spawning« namiguje na konstrukt z UI omogočenega »drstenja« novih del iz že obstoječih; priklicati poskuša občutje nove, samosvoje narave teh del, ki se bistveno razlikuje od narave del, ustvarjenih s starejšimi, že poznanimi tehnikami, kot sta na primer kolaž ali vzorčenje - in v tem smislu se »drsteča« umetnost zdi kar posrečen opis. Iskalno orodje Have I been trained temelji na ideji, da se umetnikom ponudi možnost samostojne preverbe podatkovne zbirke LAION5B – torej da lahko vsak posameznik zase preveri, ali so bila njegova dela že uporabljena za učenje algoritmov UI. V tem smislu je, kot pravijo sami oblikovalci orodja, cilj projekta ustvarjalcem ponuditi možnost, da »sprejmejo ali zavrnejo usposabljanje velikih modelov UI na njihovih delih«, pa tudi, da »nastavijo dovoljenja o tem, kako se uporablja njihov slog in podobnosti«, ter da »javnosti ponudijo lastne modele«.  

Kaj lahko storite?


Kot poroča Ars Technica, so med iskanjem Lapininih slik v podatkovni bazi LAION našli vrsto sorodno problematičnih.

»Med iskanjem Lapininih fotografij smo v zbirki podatkov odkrili tudi na tisoče podobnih fotografij iz zdravstvenih kartotek bolnikov, od katerih ima lahko vsaka podobno vprašljiv etični ali pravni status, številne pa so bile verjetno vključene v priljubljene modele sinteze slik, ki jih podjetja, kot sta Midjourney in Stability AI, ponujajo kot komercialno storitev.«

Postopek za odstranitev problematičnih slik se sicer zdi enostaven, a je vendar v »narobe svetu«. Pa poglejmo. Prva možnost je, da sami zahtevate, da se slika umakne s spletnega mesta, kjer gostuje. Dejstvo je, da se UI uči na prosto dostopnih podatkih – ne gre za varovane podatke, varovana mesta, pač pa za spletna mesta, do katerih imamo vsi prost dostop. Edina (a zdi se bistvena) razlika je, da mi tega ne vemo, algoritem umetne inteligence pa je našo sliko »pobral« in uporabil.

Ko gre za nabor podatkov LAION, se zdi etična naravnanost projekta pravilna – gre za odprto bazo, kjer lahko ugotovite ne le, da je bila vaša slika zajeta v nabor, pač pa tudi, s katerega mesta je bila pobrana. Sledljivost je tu ključna. Kot je za The Vice povedal Romain Beaumont, eden izmed razvijalcev nabora podatkov LAION, je podatek o tem, na kateri spletni strani gostuje slika, del nabora podatkov. »Če [nabor podatkov] prenesete, dobite celoten seznam URL-jev. Na predstavitvenih spletnih mestih za pridobivanje posnetkov ali podobnih spletnih mestih lahko z desnim klikom kliknete glej url, da si ogledate spletno mesto.« Prav tako lahko zahtevate umaknitev vaše slike iz same baze neposredno od LAIONa.

V oziru navedenega projektu LAION res ni mogoče očitati spornosti; gre za odprtokodni projekt, deluje na javno dostopni bazi, financira se z donacijami, in oblikuje transparentno – vsakdo ga lahko spreminja, prispeva, doda ali oceni. A da se vrnemo k »narobe svetu«. Verjetnost, da se zavedate, da je vaša slika že del podatkovnega niza, je zelo majhna. Še manj verjetno je, da boste lahko našli odgovorno osebo za dejstvo, da je vaša slika sploh prišla na splet. Vse to občutka neprijetnosti, da se nekdo »uči na vas«, prav nič ne zmanjša.

»Na splošno večina ljudi nima dostopa do teh naborov podatkov in večina ljudi ne ve, da je bila njihova slika uporabljena. Vem, da zdaj obstajajo orodja, ki vam bodo to pomagala ugotoviti. Ampak veste, povprečna oseba ne bo hodila naokoli nadzorovat vseh velikih podatkovnih zbirk strojnega učenja, ki so tam navedeni, da bi se prepričala, ali je bila njegova fotografija uporabljena. Torej morda niti ne veš, da si dejansko oškodovan - in to je zame res problematično.« Tiffany Li (6)

---------

(1)  LIAON5B odpravlja tudi težave prejšnjega corpusa – vodne žige, ki so se jih algoritmi v prejšnjih verijah seveda tudi “naučili”, prepoznavnje neprimernih vsebin in pornografije. Vir: https://laion.ai/blog/laion-5b/

(2) Benj Edwards, Ars Technica, 21.9.2022, https://arstechnica.com/information-technology/2022/09/artist-finds-private-medical-record-photos-in-popular-ai-training-data-set/

(3)  Uredba (EU) 2016/679 Evropskega parlamenta in Sveta z dne 27. aprila 2016 o varstvu posameznikov pri obdelavi osebnih podatkov in o prostem pretoku takih podatkov ter o razveljavitvi Direktive 95/46/ES (Splošna uredba o varstvu podatkov)

(4)  1. odst. 4. čl. GDPR: Osebni podatek pomeni katerokoli informacijo v zvezi z določenim ali določljivim posameznikom; določljiv posameznik je tisti, ki ga je mogoče neposredno ali posredno določiti, zlasti z navedbo identifikatorja, kot je ime, identifikacijska številka, podatki o lokaciji, spletni identifikator, ali z navedbo enega ali več dejavnikov, ki so značilni za fizično, fiziološko, genetsko, duševno, gospodarsko, kulturno ali družbeno identiteto tega posameznika.

 (5) Ta povezuje obraze z bazo podatkov več kot 20 milijard slik, indeksiranih z interneta, in se danes uporablja tako v zasebnem kot javnem sektorju kot učinkovito orodje za prepoznavo oseb.

(6)  Chloe Xiang, AI Is Probably Using Your Images and It's Not Easy to Opt Out, Vice, https://www.vice.com/en/article/3ad58k/ai-is-probably-using-your-images-and-its-not-easy-to-opt-out