Read the original English version in Nature

Il modello di intelligenza artificiale su cui si basa ChatGPT è in grado di generare dataset scientifici sufficientemente plausibili. Credit: Mateusz Slodkowski/SOPA Images/LightRocket via Getty.

Alcuni ricercatori hanno utilizzato la tecnologia alla base del chatbot di intelligenza artificiale ChatGPT per creare un falso set di dati clinici a sostegno di un'affermazione scientifica non verificata.

In un articolo pubblicato su JAMA Ophthalmology il 9 novembre1, gli autori hanno utilizzato GPT-4 - l'ultima versione del modello linguistico di grandi dimensioni su cui gira ChatGPT - abbinato ad Advanced Data Analysis (ADA), un modello che incorpora il linguaggio di programmazione Python e può eseguire analisi statistiche e creare visualizzazioni di dati. I dati generati dall'intelligenza artificiale confrontavano i risultati di due procedure chirurgiche e indicavano - erroneamente - un trattamento come più efficace dell'altro.

"Il nostro obiettivo era evidenziare che, in pochi minuti, è possibile creare un set di dati che non è supportato da dati originali reali, e va anche nella direzione opposta rispetto alle prove disponibili", afferma il coautore dello studio Giuseppe Giannaccare, chirurgo oculista presso l'Università di Cagliari.

La capacità dell'intelligenza artificiale di fabbricare dati convincenti aumenta le preoccupazioni sull'integrità della ricerca dei ricercatori e dei direttori di riviste. "Un conto è che l'IA generativa possa essere usata per generare testi che non sarebbero rilevabili con un software di plagio, ma la capacità di creare serie di dati falsi ma realistici è un ulteriore livello di preoccupazione", afferma Elisabeth Bik, microbiologa e consulente indipendente per l'integrità della ricerca a San Francisco, California. "Sarà molto facile per qualsiasi ricercatore o gruppo di ricercatori creare misurazioni false su pazienti inesistenti, risposte false a questionari o generare un grande set di dati su esperimenti animali".

Gli autori descrivono i risultati come un "database apparentemente autentico". Ma quando sono stati esaminati da specialisti, i dati non hanno superato i controlli di autenticità perché contenevano segni rivelatori della loro natura artificiale

Confronto tra terapie chirurgiche

Gli autori hanno chiesto a GPT-4 ADA di creare una serie di dati relativi a persone affette da una patologia oculare chiamata cheratocono, che causa l'assottigliamento della cornea e può portare a problemi di messa a fuoco e di visione. Per il 15-20% delle persone affette dalla malattia, il trattamento prevede un trapianto di cornea, eseguito con una tra due procedure.

Il primo metodo, la cheratoplastica penetrante (PK), prevede la rimozione chirurgica di tutti gli strati danneggiati della cornea e la loro sostituzione con tessuto sano proveniente da un donatore. La seconda procedura, la cheratoplastica lamellare anteriore profonda (DALK), sostituisce solo lo strato anteriore della cornea, lasciando intatto lo strato più interno.

Gli autori hanno chiesto al modello linguistico di grandi dimensioni di fabbricare dati a sostegno della conclusione che la DALK porta a risultati migliori rispetto alla PK. A tal fine, gli è stato chiesto di mostrare una differenza statistica in un test di imaging che valuta la forma della cornea e rileva le irregolarità, nonché una differenza nella capacità visiva dei partecipanti allo studio prima e dopo le procedure.

I dati generati dall'intelligenza artificiale comprendevano 160 partecipanti di sesso maschile e 140 di sesso femminile e indicavano che coloro che si erano sottoposti alla DALK ottenevano risultati migliori rispetto a coloro che avevano subito la PK sia nella visione che nel test di imaging, un risultato che è in contrasto con quanto mostrano i veri studi clinici. In un rapporto del 2010 su uno studio con 77 partecipanti, i risultati della DALK erano simili a quelli della PK fino a 2 anni dopo l'intervento2.

"Sembra abbastanza facile creare serie di dati che siano almeno superficialmente plausibili. A un occhio non esperto, questi sembrano certamente dati reali", afferma Jack Wilkinson, biostatistico presso l'Università di Manchester, Regno Unito.

Wilkinson, che ha un interesse per i metodi di individuazione di dati falsificati, ha esaminato diversi set di dati generati da versioni precedenti del modello linguistico di grandi dimensioni, che a suo avviso mancavano di elementi convincenti quando venivano esaminati, perché faticavano a catturare relazioni realistiche tra le variabili.

Controllo ravvicinato

Su richiesta del team di Nature, Wilkinson e il suo collega Zewen Lu hanno valutato la serie di dati falsi utilizzando un protocollo di screening progettato per verificarne l'autenticità.

Il protocollo ha rivelato una mancata corrispondenza in molti "partecipanti" tra il sesso designato e quello che ci si aspetterebbe di solito dal loro nome. Inoltre, non è stata riscontrata alcuna correlazione tra le misure pre e post operatorie della capacità visiva e il test di imaging oculare. Wilkinson e Lu hanno anche ispezionato la distribuzione dei numeri in alcune colonne del set di dati per verificare la presenza di modelli non casuali. I valori di imaging oculare hanno superato questo test, ma alcuni valori di età dei partecipanti si sono raggruppati in un modo che sarebbe estremamente insolito in un set di dati autentico: c'era un numero sproporzionato di partecipanti i cui valori di età finivano con 7 o 8.

Gli autori dello studio riconoscono che il loro set di dati presenta dei difetti che potrebbero essere individuati con un attento esame. Tuttavia, afferma Giannaccare, "se si esamina molto rapidamente il set di dati, è difficile riconoscere l'origine non umana della fonte dei dati".

Bernd Pulverer, editor di EMBO Reports, è d'accordo che ci siano motivi di preoccupazione. "La revisione paritaria spesso non comprende una rianalisi completa dei dati ed è improbabile che riesca a individuare violazioni ben confezionate grazie all'IA", afferma, aggiungendo che le riviste dovranno aggiornare i controlli di qualità per identificare i dati sintetici generati dall'IA.

Wilkinson sta guidando un progetto collaborativo per progettare strumenti statistici e non statistici per valutare gli studi potenzialmente problematici. "Allo stesso modo in cui l'IA potrebbe essere parte del problema, potrebbero esserci soluzioni basate sull'IA per alcuni di questi problemi. Potremmo essere in grado di automatizzare alcuni di questi controlli", afferma. Ma avverte che i progressi dell'IA generativa potrebbero presto offrire modi per aggirare questi protocolli. Pulverer è d'accordo: "Sono cose contro cui l'IA può essere facilmente applicata non appena si sa cosa cerca lo screening".