Adobe e il "vizietto" della pirateria: Class Action per l'AI addestrata su libri rubati.
Adobe è stata citata in giudizio: il suo modello SlimLM sarebbe stato addestrato su migliaia di libri piratati. Crolla la promessa dell'AI "etica" e sicura per il business? Analizziamo i rischi per le aziende che si affidano a dataset non verificati.

Adobe ha passato gli ultimi due anni a ripeterci un mantra: "La nostra AI è diversa. È etica. È sicura per il business". Mentre Midjourney e soci raschiavano il web senza pietà, Adobe Firefly si vantava di essere addestrato solo su immagini stock autorizzate. Tutto molto bello. Peccato che, secondo una nuova class-action appena depositata, qualcuno a San Jose si sia "dimenticato" di controllare cosa c'era dentro i dataset testuali. Risultato? Adobe è stata citata in giudizio per aver usato libri piratati per addestrare i suoi modelli.
La Matrioska dei dati sporchi
La causa, guidata dalla scrittrice Elizabeth Lyon, punta il dito contro SlimLM, un modello di linguaggio "piccolo" ottimizzato da Adobe per girare sui dispositivi mobili e aiutare nella gestione dei documenti. Il problema non è tanto il codice di Adobe, quanto la "dieta" che gli hanno fatto seguire. Ecco la catena del disastro descritta nell'accusa:
Adobe ha addestrato SlimLM su un dataset open-source chiamato SlimPajama-627B.
SlimPajama è una versione "ripulita" di un altro dataset, RedPajama.
RedPajama contiene al suo interno "Books3", una famigerata collezione di 191.000 libri protetti da copyright, copiati e distribuiti illegalmente.
In pratica? Senza chiedere il permesso a nessuno, le guide di saggistica della signora Lyon (e di migliaia di altri autori) sono finite nello stomaco dell'AI di Adobe.
Mal comune, mezzo gaudio? No.
Adobe è in buona compagnia, ma non è una compagnia di cui andare fieri. Il dataset "Books3" è diventato la kryptonite della Silicon Valley. È lo stesso archivio tossico che ha causato problemi legali ad Apple (per la sua Apple Intelligence) e a Salesforce, entrambi accusati di aver usato RedPajama senza consenso, credito o compensi. Il trend è chiaro: l'industria tech ha fame di dati, e spesso mangia prima di controllare la data di scadenza (o la provenienza). Basti pensare ad Anthropic (i creatori di Claude), che a settembre ha accettato di pagare cifre astronomiche – si parla di accordi miliardari nel contesto più ampio – per chiudere le cause con gli autori che l'accusavano di aver usato versioni piratate delle loro opere.
L'Output di Graffico 🔴
Perché questa notizia è un campanello d'allarme per le aziende? Perché Adobe si è posizionata sul mercato B2B come l'alternativa "Safe". Le aziende pagano Adobe proprio per evitare grane legali sul copyright. Se si scopre che anche i loro modelli "curati" hanno attinto da fonti illegali (anche indirettamente, tramite dataset open-source non verificati), crolla la proposta di valore.
La lezione per chi fa impresa e usa l'AI è due volte importante:
Attenzione alla Supply Chain dei dati:
Usare un modello "Open Source" (come SlimPajama) non ti esonera dalle responsabilità legali se quel modello contiene materiale rubato.
Il rischio reputazionale:
Non basta dire "non lo sapevo". Se vendi strumenti ai creativi (come fa Adobe), non puoi permetterti di essere beccato a "rubare" dai creativi stessi.
Il futuro dell'AI aziendale passerà inevitabilmente per dataset certificati e, molto probabilmente, pagati a caro prezzo. La festa del "tutto gratis" è finita.
Pronto a trasformare le tue idee?
Richiedi una consulenza gratuita e senza impegno. Parliamo del tuo progetto.
Richiedi consulenza

