search icon Arhiva

Medijska produkcija: maliciozna montaža i dipfejk

Čokoladne žabice za 21. vek

Sve je počelo kao u Hogvorts ekspresu – uz malo magije – taman kada smo pomislili da živimo u svetu u kojem nas ništa više ne može iznenaditi. Prva karta koju je Hari Poter dobio uz čokoladnu žabicu bila je, sudbinski, ona s likom Albusa Dambldora.

Hari prevrnu kartu na lice i vide, na svoje zaprepašćenje, da je Dambldorovo lice iščezlo. „Nestao je!“

„Pa ne očekuješ valjda da tu visi povazdan!“, odgovorio mu je Ron. „Vratiće se!“

Dipfejk tehnologija, bazirana na veštačkoj inteligenciji, uspela je još pre nekoliko godina da oživi slike, kao da su izvučene iz čokoladnih žabica. Već tada smo, uz pomoć uslovno besplatnih aplikacija, mogli da ponudimo softveru jednu svoju fotografiju, a da je on pokrene i smesti u inserte filmova – od scene na pramcu Titanika do otvaranja čokoladnih žabica u pomenutom Hogvorts ekspresu. Bila je to prava mala revolucija: softver je od slike pravio video, i to veoma uverljiv.

Paralelno smo mogli da pratimo kako se dipfejk tehnologija izmešta iz sfere zabave. Jutjub su preplavili snimci na kojima Barak Obama i Donald Tramp izgovaraju rečenice koje zapravo nikada nisu izgovorili, a slične manipulacije – samo tehnički naprednije i uverljivije – u više navrata su korišćene i tokom aktuelne invazije na Ukrajinu. Jedna od njih je, na primer, prikazivala Volodimira Zelenskog kako proglašava predaju Ukrajine.

Dipfejk tehnologija, zasnovana na mehanizmu koji sam sebe podučava, zahteva početni resursni materijal na osnovu kojeg će prepoznati i usvojiti određenu matricu. Ukoliko je reč o poznatoj osobi, kao što je ukrajinski predsednik, veoma je jednostavno prikupiti 20 njegovih obraćanja u maslinasto zelenoj majici, a potom kreirati 21. snimak koji će delovati autentično, iako je u potpunosti kompjuterski generisan. Međutim, danas više ne morate da budete slavna ličnost, s gomilom dostupnog video-materijala, da bi po vašem liku bio stvoren dipfejk sadržaj.

Pangram-tehnologija

U istoriji filmske industrije, setimo se, zvuk je osetno kaskao za slikom. Prvi video-snimak nastao je 1888. u Lidsu. Deca koja su rođena te godine morala su da čekaju na svoj 39. rođendan da bi videla – i čula – prvi zvučni film, Džez pevač. U kontekstu dipfejka zvuk svakako nije sustizao sliku četiri decenije, ali su prošle barem četiri godine dok nisu proizvedeni prvi softveri koji uspešno podražavaju govorni sadržaj. Da bismo dobili uverljive (a lažne) audio-sekvence više ne moramo da imamo sate i sate snimljenog materijala, kao nekad s Trampom i Obamom. Dovoljno je da pročitamo nekoliko stranica namenski napisanog teksta da bi softver zabeležio našu boju glasa, intonaciju, kombinacije slogova, a potom uspešno pretpostavio kako bismo izgovorili i one reči koje od nas nikada nije čuo. Tako nam, na primer, softver Resemble AI nudi opciju besplatnog kloniranja našeg glasa, a ova tehnologija mogla bi ubuduće da se koristi i za pseudokomunikaciju sa preminulima.

Ukoliko ste nekada instalirali fontove na svoj računar, verovatno vam se pred očima našla pangramska rečenica. Ona treba da funkcioniše kao izlog: namenski je sačinjena tako da sadrži sva slova određenog alfabeta, a da pritom zauzme što manje mesta. Tako se, na primer, na engleskom najčešće koristi rečenica „The quick brown fox jumps over the lazy dog“, a na srpskom Фијуче ветар у шибљу, леди пасаже и куће иза њих и гунђа у оџацима. Kada se formira baza za klonirani govorni sadržaj, postupak je sličan: korisniku treba dati na čitanje što kraći tekst koji će povući što više informacija i samim tim postati osnova za dalje replikacije. Ukoliko se ova pangram-tehnologija udruži s veštačkom inteligencijom čet-botova, možda ćemo u skorijoj budućnosti biti u prilici da „razgovaramo“ sami sa sobom, sa svetskim zvezdama ili s osobama koje su preminule.

Svi ovi modeli prilagođavaju se, između ostalog, korisnicima koji imaju bazičan nivo digitalne pismenosti, pa nije potrebno biti ekspert za softversku obradu slike i zvuka da bi nastao ubedljiv rezultat. Grupa kineskih eksperata razvila je program DeepFaceDrawing koji „popravlja“ crteže lica. Od korisnika se ne zahteva ništa više od detinjastog škrabanja u Pejntu: dovoljno je tek nekoliko linija Čiča-Gliše da bi program ponudio zapanjujuće dobre fotografije. Ukoliko nismo zadovoljni širinom nosa našeg modela ili dužinom njegove kose, sve se dā popraviti jednim potezom miša. Slični programi omogućavaju kreiranje pejzaža: nacrtamo krug, a on se pretvori u lepu stenu; povučemo cik-cak liniju i ona formira planinski masiv; jedna talasasta linija dovoljna je da se pred nama pojavi more.

Dark dipfejk

Šta se, međutim, dešava kada neko poželi da iskoristi veštačku inteligenciju za nešto više od zvuka, lica i pejzaža? Nije potrebno mnogo imaginacije da bi se zamislilo na koji način ova tehnologija može biti zloupotrebljena. Na internetu je do leta 2019. godine postojala aplikacija DeepNude koja je korisnicima omogućavala da po ceni od 50 dolara razodenu žene. Softver bi, prilično brzo i jednostavno, na osnovu slike obučene žene analizirao pregibe na njenoj odeći i telu, a potom nudio uverljivu nagu fotografiju. Autor je rekao da ga je na ovaj korak inspirisalo čitanje magazina iz šezdesetih i sedamdesetih pomoću „čarobnih naočara“ koje su otkrivale slike samo onima koji ih nose. Aplikaciju je uklonio zbog – kako kaže – potencijalnih zloupotreba, što nipošto ne znači da je Pandorina kutija time zatvorena. Naprotiv.

Istraživanje „Stanje dipfejka“ iz 2019. pokazalo je da politički ili pseudonaučni dipfejk, koliko god se o njima govorilo u javnosti, ni izbliza nisu tako rasprostranjeni kao pornografski, koji čini čak 96% ukupnog onlajn dipfejk sadržaja. Na meti nisu samo poznate ličnosti (a kad kažemo ličnosti, pre svega mislimo na žene), već i one koje žive daleko od crvenih tepiha i glamura. Platforma MrDeepFakes Forums ponudila je korisnicima da za određenu sumu novca ispune svoje fantazije tako što će u postojeće pornograsfske snimke „ugraditi“ izabranu osobu, pod uslovom da mogu da dostave resursni materijal (snimke koji sadrže lice iz svih uglova), ali i pod uslovom da žrtva ima više od 18 godina. Nekoliko žena koje su, bez pristanka i znanja, postale deo ovakvih snimaka, objasnile su zbog čega je dipfejk pornografija tako traumatično iskustvo, čak i ako znate da niste na originalnom snimku, čak i ako to možete da dokažete. Sama činjenica da vas je neko stavio u takav kontekst, i to s izrazitom lakoćom, a da je onda taj snimak učinio dostupnim svima, budi strah da bi budućnost dipfejka mogla biti još mračnija.

Nove tehnologije i nova etička pitanja

Za razliku od dipfejk sadržaja kojima je neophodan određeni predložak, postoje i oni mehanizmi veštačke inteligencije koji rade „na klik“ ili na krajnje jednostavan upit. Sajt Thispersondoesnotexist generiše beskrajan niz portreta ljudi koji nikada nisu postojali. Stvoreni su kompjuterski, a svaki put kad osvežite stranicu pojaviće vam se nova ličnost koju niko nikada pre vas nije video. Mnoge od tih slika završe na botovskim i trolovskim nalozima na društvenim mrežama, kako bi se stvorio utisak da nalog vodi prava, živa, autentična ličnost. Poreklu takvih slika nemoguće je ući u trag na osnovu klasične obrnute pretrage fotografija, ali se „prevara“ može otkriti upoređivanjem sporne slike s drugim slikama nastalim na Thispersondoesnotexist: oči su uvek u ravni kod ovakvih kompozitnih portreta, i po vertikali i po horizontali.

Prethodnih meseci široj javnosti postala je dostupna i veštačka inteligencija koja stvara slike na osnovu jezičkog unosa. Ako želite ilustraciju konja u stilu Salvadora Dalija, sve što treba da uradite je da ukucate „horse + salvador dali“. Ako želite ilustraciju Nikole Tesle kao čarobnjaka iz Piksarovog crtanog filma, dobićete je unosom ključnih reči. Ova fascinantna tehnologija, dostupna na servisima Midjourney i DallE, otvara niz pitanja: kome pripadaju autorska prava na proizvedene sadržaje?; hoće li veštačka inteligencija uništiti poslove ilustratora i fotografa?; može li ilustrator da zabrani kopiranje njegovog stila u okviru ovakvog softvera?

Ipak, pitanje svih pitanja je: može li se ovaj mehanizam zloupotrebiti? Midjourney, na primer, ne prihvata komande koje sadrže opscenu leksiku, čak ni benigno „sexy“. Međutim, to je samo „dobra volja“ jedne privatne IT kompanije da u ovoj fazi razvoja ne dozvoli kreiranje erotskih ili pornografskih sadržaja. A šta dalje? Pretpostavimo da je samo pitanje vremena kada ćemo i video-klipove moći da kreiramo „od nule“, a potom i da ih iskoristimo da vizualizujemo svoje fantazije. Nego bajkovite, neko mračne.

Lov na dipfejk

Ranije faze razvoja dezinformisanja pokazale su da se uz sisteme manipulisanja uvek paralelno razvijaju i sistemi detekcije. Tako je i ovog puta: dipfejk postaje sve prodorniji, ali se ubrzano pojavljuju i softveri koji ga lako prepoznaju na osnovu specifičnih frejmova i oku nevidljivih, sitnih komponenti. Ovakve poteze će, bez ikakve sumnje, pratiti i promene u regulaciji internet aktivnosti, čiji će zadatak biti da suzbijaju podle, nepoželjne sadržaje.

Voz u kojem se trenutno nalazimo možda nas neće odvesti u Hogvorts, ali – bez brige – nećemo završiti ni u mračnoj Dijagon-aleji. Slika budućnosti nije crno-bela, već više šarena, baš kao i naslovna ilustracija ovog teksta. Kreirala ju je – pogađajte – veštačka inteligencija na osnovu naslova, za samo dvadesetak sekundi.

Stefan Janjić

Tekst je nastao u okviru projekta „Uvod u medijsku pismenost“.

Novinarstvo: uloga i... Održana regionalna konferencija...