Ci sono dunque due componenti essenziali per lo sviluppo di sistemi di generative AI. Uno, quello più ovvio e più discusso, è l’enorme capacità di calcolo, che permette di analizzare una gigantesca massa di dati in pochi istanti, così da poter riflettere la rapidità di risposta di una conversazione umana. È da qui che si innesca il “motore statistico” sottostante. Ma tuttavia ciò non basta: è necessaria un’altra componente, più distintamente umana. L’ AI deve apprendere a parlare: da dove impara? Nell’esempio del precedente post, il “selvaggio” scorazza tra i piani e le sale della biblioteca. Non troppo diversamente, l’AI impara dalla massa di informazioni a cui può accedere in larga prevalenza presente nell’etere. Il sistema, in generale, assorbe dati e informazioni che trova nel vasto oceano di dati presenti nel web, tra i quali social media, librerie digitali, giornali, televisioni, radio e banche dati di varia natura. Ne raccoglie i contenuti, nella maggior parte dei casi, senza chiedere esplicitamente il permesso e senza riconoscerne il contributo. Il problema? In molti casi tali informazioni sono soggette a copyright. 

Il modello di apprendimento così definito solleva alcuni temi spinosi. Un recente caso in materia è stato discusso in un tribunale in California (riguardo all’uso di immagini per applicazioni word-to-image). Alcuni autori hanno obiettato che se l’AI utilizza i loro testi o le loro immagini per il proprio apprendimento, andrebbe loro riconosciuto il diritto a partecipare agli utili generati. Gli autori richiedono che il processo di definizione del “language model” sottostante sia reso trasparente e che ad ogni uso corrisponda una commissione pagata agli autori delle opere a cui si è ispirati. Di fatto, un qualcosa che assomiglia al modello SIAE per la retribuzione di autori dei brani musicali, che vanno versati ogni volta che vengono rappresentati in pubblico.

Tuttavia, senza dubbio il tema assume rapidamente un livello di complessità considerevole. Dato che il sistema di apprendimento dell’AI è basato su amplissimi volumi di testi analizzati, è estremamente complesso determinare in modo accurato quale testo ha dato il maggior contributo; come definire con accuratezza se il risultato sarebbe stato peggiore senza quel particolare input? Inoltre, ciò vorrebbe dire che ogni volta che una persona interroga il sistema di AI, si dovrà tener conto di tutta l’enorme quantità di testi che hanno fatto parte del suo “corredo educativo”, magari attraverso stratificazioni di utilizzi precedenti. 

Per il momento, il tribunale della California – finora l’unico, almeno per quanto ci risulta, ad aver preso una decisione su questo argomento – ha declinato le richieste di compensazione degli autori. Sintetizzando al massimo, il giudice ha dato ragione alle società di AI che argomentavano che i sistemi ne fanno in effetti un uso ricorrente, ma che rientra nella definizione legale di un uso “giusto”: non vi è una riproduzione esatta, l’utilizzo è per uno scopo corretto e non si pone in diretta competizione commerciale con il testo o l’immagine utilizzata. Ma il tema è agli albori, vi sono altre cause legali in corso e il riconoscimento dei contributi degli autori non potrà essere del tutto ignorato. Allo stesso tempo è interesse di tutti che l’AI impari da una molteplicità di fonti diverse. Un tema molto complesso, ma centrale per il futuro dell’AI e per determinare se e quanto saranno utili e virtuosi i suoi utilizzi.

Tratto da https://fondazionefeltrinelli.it/scopri/intelligenza-artificiale-copyright/

Scrivi un Commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *