La nuova ricerca nel web, fatta con l’AI, passa per i media

Di Nicola Zamperini da “Disobbedienze”

Da un lato l’erede di una blasonata famiglia industriale che sembrava stesse uscendo dal mercato dei media, dall’altro il creatore di ChatGPT. I giornali hanno descritto l’incontro di ieri, a Torino, tra John Elkann, Exor e GEDI, e Sam Altman, OpenAI, come un colloquio. Credo somigli piuttosto a un’istantanea che fotografa due membri della superclass (nella definizione di David Rothkopf) che tentano un’intesa, vedono possibili investimenti e forse anche un’alleanza contro un avversario comune. Queste tre ipotesi passano per merci che appaiono perennemente in crisi: le notizie, i giornali, i media.

Eppure proprio questo prodotto, che sembrerebbe così stancamente legato a un’epoca sorpassata, possiede in realtà un valore intrinseco di cui le piattaforme, che sviluppano intelligenza artificiale, sono golose: la qualità e la varietà della scrittura. Materia scarsa e necessaria ad addestrare i modelli di AI.

Oggi pressoché tutta Internet è già stata letta e digerita per il training dell’AI. I grandi corpora di testo, con centinaia di miliardi di parole, sono stati già inglobati. E infine i cosiddetta dataset sintetici, e cioè le parole per addestrare l’AI scritte dall’AI, non funzionano granché bene. Chi sviluppa intelligenza artificiale ha bisogno disperato di parole, frasi, discorsi in linguaggio cosiddetto naturale, come reportage, notizie e approfondimenti, testi lunghi e articolati, che spiegano fenomeni più o meno complessi. E sono quindi perfetti per spiegare ai Modelli di linguaggio di grandi dimensioni (LLM) come parliamo, come ci esprimiamo e, in definitiva, anche a cogliere quegli elementi di complessità del reale che non si trovano con la stessa immediatezza negli articoli scientifici. L’attualità spiegata bene. Ecco, tutte queste parole – scritte dai giornalisti – dispongono ancora di un valore. Un peso e un valore maggiore delle nostre conversazioni nei social network, e anche delle parole utilizzate dai cosiddetti creator per spiegare qualsiasi cosa, sempre nei social network. Le parole dei media, nonostante i molti difetti, sono parole di qualità.

L’incontro tra Elkann e Altman è stata l’occasione per presentare una partnership tra due aziende su questi temi. L’idea è quella di integrare i contenuti giornalistici di GEDI – Repubblica, Stampa, RadioDeejay, tra le altre – dentro ChatGPT. Il comunicato stampa ha spiegato che «l’accordo offre a entrambe le società nuove opportunità per ulteriori collaborazioni su funzionalità e prodotti basati sull’AI».

Insomma gli articoli serviranno a migliorare i nuovi modelli GPT, ma anche a fornire notizie agli utenti per un nuovo servizio di ricerca che OpenAI dovrebbe lanciare entro la fine dell’anno.

Ora però concentriamoci sull’addestramento dell’AI.

Quello che Altman ha annunciato ieri insieme a Elkannva nella direzione di altri accordi con le più grandi imprese di media al mondo, come NewsCorp, AP, Springer e giornali come Le Monde, Financial Times, El Pais.

Da un lato, Altman intende evitare cause clamorose, e potenzialmente costose, come quella che lo vede contrapposto al New York Times, perché è evidente che quando ChatGPT è stata costruita, andando ad appropriarsi di contenuti senza chiedere permesso, senza averne i diritti, nella più pura tradizione della Silicon Valley.

Dall’altro lato, gli archivi immensi, e già digitalizzati, organizzati per argomenti, curati e grammaticalmente corretti, rappresentano dataset di qualità, aggiornati in tempo reale e quindi abbastanza puliti, come dicono i creatori di LLM, cosa che li rende preziosi per l’addestramento di un modello di intelligenza artificiale. Nello sfruttamento di questi giacimenti di un ennesimo petrolio c’è una parte dell’ipotetico successo della futura AI.

Denaro in cambio di testo.

Nonostante il bisogno spasmodico di parole, pochi giorni fa, Mark Zuckerberg, in un’intervista al vicedirettore di The Verge, ha detto «che il lavoro individuale della maggior parte dei creatori di contenuti non è abbastanza prezioso da essere considerato importante» per addestrare la sua intelligenza artificiale.

Insomma, mentre Altman fa un accordo economico con i grandi gruppi editoriali per ottenere articoli, Zuckpaga gli influencer soltanto quando fanno pubblicità, e non per addestrare la sua AI, non per le loro parole.

Perché non tutte le parole pesano allo stesso modo.

Vero è che ci sono anche questioni di copyright, ed è anche vero che Meta non deve chiedere permesso ai propri utenti per sfruttare i contenuti che questi pubblicano. Per esempio, sarebbe interessante sapere quanti abbiano usufruito della possibilità di opt-out nei social di Zuckerberg, per impedire all’azienda proprietaria di Facebook di servirsi di Storie, post e Reels per addestrare l’AI.

Numeri che Meta non comunicherà mai.

(Peraltro fa sorridere che in questi giorni, centinaia di migliaia di utenti in tutto il mondo abbiano pubblicato su Instagram un inutile avvertimento diretto proprio a Meta, con cui intimavano all’azienda di Zuck di non usare i loro contenuti per addestrare l’AI. Inutile, appunto).

Ora l’accordo tra OpenAI e GEDI in realtà sottintende una prospettiva e una partita differente, e più ampia, che va oltre l’addestramento dei nuovi LLM e apre alcuni scenari interessanti. Quegli articoli finiranno anche dentro il nuovo motore di ricerca di OpenAI.

SearchGPT è un progetto che dovrebbe vedere la luce entro la fine di quest’anno. Chi l’ha provato, circola una versione beta tra migliaia di utilizzatori, parla di qualcosa di incredibile. Un prototipo di prodotto, secondo OpenAI, che offrirà agli utenti «nuove funzionalità di ricerca progettate per combinare la forza dei modelli di intelligenza artificiale, con informazioni dal web per dare risposte rapide e tempestive con fonti chiare e pertinenti». Un’operazione che ha un solo obiettivo, un solo nemico. La prospettiva sembra chiara. Tutti gli accordi che OpenAI sta facendo con gli editori li fa in chiave anti-Google.

Tra due soggetti – OpenAI e Google – che operano e opereranno in futuro una mediazione tra bisogni informativi e lettori, gli editori stanno scegliendo il soggetto più giovane, quello dalle prospettive più brillanti. L’idea di GEDI, e degli altri gruppi editoriali, è costruire da subito una relazione basata sui soldi, su uno scambio contenuti e traffico in cambio di denaro, in una posizione subalterna sì, ma meno subalterna di quanto non sia stata quella che hanno tenuto con Google negli anni scorsi.

Al netto di pochi gruppi editoriali che possono contare su una significativa ed esclusiva relazione coi propri lettori paganti (tipo il New York Times, appunto), la maggior parte delle aziende editoriali passa per la tagliola di Google, che porta traffico ai siti dei giornali attraverso la ricerca. Se Google non indirizza traffico attraverso la ricerca, nessuno vede i loro siti (c’è un numero di Disobbedienze newsletter per approfondire il tema).

Ragione per cui molti siti di giornali si vedono costretti a scrivere non ciò che dev’essere pubblicato, all the news that’s fit to print, ma ciò che le persone cercano su Google. Differenza sottile e stellare, essenziale.

Mezzo mondo editoriale sembra quindi scommettere sul cavallo di Altman. Su un soggetto differente che svolga la funzione di mediazione tra una serie di bisogni informativi di varia natura e una quantità di contenuti vasta a piacere. Per concepire questo scenario nella sua interezza, dobbiamo però immaginare che, tra qualche anno, la nostra relazione con l’AI sarà così totalizzante che chiederemo a ChatGPT, attraverso la voce, di leggerci le ultime notizie di Repubblica o del Corriere della Sera scritte da giornalisti. Di produrne autonomamente una sintesi o recuperare un approfondimento, scritto da un essere umano o dalla macchina. Di spiegarci quanto non abbiamo capito e di farci un riassunto delle puntate precedenti.

La ricerca sul web rappresenta un mercato mostruoso. Le notizie sono un ambito cospicuo di questo mercato. Un rapporto privilegiato, con una platea di fornitori di contenuti di qualità, potrebbe evitare a OpenAI i fastidi che hanno tormentato Google e Meta negli ultimi anni.

La ricerca di Sam Altman potrebbe insomma realizzarsi in assenza di blog, di siti complottisti, social e bufale. Noi chiederemo informazioni e OpenAI offrirà una versione ristretta e di qualità del web, per come lo conosciamo oggi. Molto meno polarizzata, molto più istituzionale per così dire. Un gigantesco giardino recintato, in cui la componente notizie è affidata ai grandi gruppi editoriali. OpenAI si candida a fare l’edicola digitale del pianeta, e molte altre cose, ben più redditizie. Vi ricordo Amazon ha cominciato coi libri.

Più in generale, lo scontro sulla ricerca costituisce una delle chiavi per capire quale forma avrà il web nel futuro prossimo. Quale sarà il soggetto che rappresenterà la porta d’accesso per miliardi di utenti nella relazione con un’AI vocale o visuale, cuffie e/o occhiali, una macchina cui chiederemo di tutto: le notizie e soprattutto le informazioni sui prodotti e poi l’acquisto dei prodotti stessi.

Per ora, che OpenAI possa svolgere questa funzione di super mediatore sostituendo il vecchio motore di ricerca è un’ipotesi tutta da verificare; ma che l’azienda di Altman parta in vantaggio su Google sul fronte dell’intelligenza artificiale generativa questo è evidente a molti.

Non è escluso infine che Altman abbia anche parlato di investimenti con Elkann. Il fondatore di OpenAI è alla ricerca di soci, con quote da 250 milioni ciascuno, per un round di investimenti destinati a un’azienda che alcuni valutano già 150 miliardi di dollari. Visto che Exor ragiona all’insegna della diversificazione, chissà che John Elkann non decida di mettere qualche soldo sul nuovo ChatGPT. E questo potrebbe spiegare perché non si sia parlato di denaro a Torino.

Gli editori e l'intelligenza artificiale: una partita rischiosa »

« CONGRESSO USIGRAI, 347 VOTI ALLE PRIMARIE PER LA LISTA DI RAI SERVIZIO PUBBLICO

Tags: GediOpen Ai

Redazione:

Gli editori e l’intelligenza artificiale: una partita rischiosa
Di Lazzaro Pappagallo - Giunta FNSI Torniamo a discutere di intelligenza artificiale applicata al giornalismo.Lo…
CONGRESSO USIGRAI, 347 VOTI ALLE PRIMARIE PER LA LISTA DI RAI SERVIZIO PUBBLICO
Trecentoquarantasette votanti e 1287 preferenze: è il risultato delle primarie tenute da Rai Servizio Pubblico…