Intelligenza artificiale

Il New York Times ha deciso di avviare un’azione legale contro OpenAI e Microsoft per violazione del copyright: l’accusa è che gli articoli del celebre quotidiano statunitense sarebbero stati usati senza autorizzazione per addestrare ChatGPT e altri modelli linguistici di IA, generando un danno economico.

La disputa apre nuovi scenari sul delicato equilibrio tra diritto d’autore e innovazione basata sui big data, mettendo in discussione i meccanismi di addestramento delle IA oggi dominanti e con potenziali conseguenze anche sul business di player come ChatGPT, il cui modello si fonda proprio sull’esistenza di enormi database di testi raccolti online.

Come avviene l’addestramento delle IA linguistiche

Attualmente, la quasi totalità delle IA conversazionali viene addestrata con il metodo del language modeling, basato sull’apprendimento tramite l’esposizione a ingenti quantità di testo scritto. I dataset utilizzati raccolgono miliardi di pagine web, articoli, libri, documenti raccolti liberamente sul web senza il consenso esplicito degli autori, tra cui anche i contenuti di editori come NYT. Il sistema “impara” dai pattern del linguaggio umano creando reti neurali in grado di generare propri testi in modo fluido e credibile. 

E’ giusto che dei contenuti di proprietà vengano sfruttati commercialmente senza il consenso di chi li redige?

I rischi del precedente

Aprendo un caso, il NYT intende difendere la proprietà intellettuale dei propri contenuti e ottenere un risarcimento per i mancati ricavi. Ma la causa mette in discussione l’intero modello su cui si basa l’addestramento delle IA linguistiche, che potrebbe risultare illegale se riconosciuto dai giudici.

Questo creerebbe un precedente importante in grado di travolgere l’intero settore: le aziende dovrebbero esplicitare meglio agli autori come e perché i loro testi vengono usati, oppure inventare nuovi metodi meno dipendenti dall’utilizzo di dataset preesistenti.

La differenza con il machine learning

A differenza di altri campi come computer vision o NLP per la traduzione, l’addestramento delle chatbot pone problemi unici legati al copyright. Mentre un’immagine utilizzata per addestrare un algoritmo di riconoscimento non è duplicata, un testo analizzato può essere facilmente riprodotto parola per parola.

Inoltre l’output delle IA generative, atte a produrre propri contenuti, rende tale operazione meno trasparente rispetto ad altre forme di machine learning che lasciano inalterati i materiali di input.

I possibili sviluppi del caso

Rimane da capire come si evolverà il contenzioso. OpenAI e Microsoft, che tra l’altro sta integrando ambienti di machine learning come GitHub e Azure con le proprie tecnologie di IA, potrebbero arrivare a un accordo extragiudiziale con il NYT.

Ma un eventuale esito condannatorio costringerebbe il settore a rivedere i propri standard operativi, forse sviluppando banche dati originali prive di controversie legali oppure sistemi di compenso volontario per gli autori sfruttati.

Soluzioni che inevitabilmente farebbero lievitare i costi di ricerca e sviluppo per player come OpenAI che, pur non essendo una società per azioni, vive di partnership commerciali e investimenti di venture capital.

Una sfida chiave per un settore ancora agli albori.

di Serena Lena

____________________________________________

Per restare sempre aggiornato, segui i nostri canali social Facebook, TwitterLinkedIn