Più che renderle inutili potrebbe migliorarle, se non ha le allucinazioni
Prima di provare a rispondere alla domanda espressa dal titolo, ho deciso di chiederlo al diretto interessato, il quale mi ha risposto (con molta umiltà devo dire): “I risultati forniti da un modello di intelligenza artificiale come me non sono equiparabili a una revisione sistematica condotta da ricercatori esperti”.
La prima versione di ChatGPT (OpenAI, San Francisco, CA) è stata rilasciata il 30 novembre 2022; si tratta di un large language model, un modello di intelligenza artificiale (Ia) addestrato con una grande mole di dati in grado di interagire, attraverso il linguaggio umano, con l’utente e di apprendere nuove conoscenze dal feedback ricevuto. Dunque, uno strumento così potente e in grado di migliorarsi potrebbe mandare in pensione le revisioni sistematiche?
Le limitazioni
Le revisioni sistematiche sono strumenti alla base dell’evidence-based medicine, in grado di riassumere le evidenze disponibili su un determinato argomento e così anche ChatGPT presenta un ottimo livello di competenza; ad esempio, ha superato esami per studenti di medicina ed è in grado di riassumere le nozioni acquisite in un testo. Le sue conoscenze non rappresentano però lo stato dell’arte in quanto il set di dati su cui ChatGPT è addestrato si ferma a settembre 2021; non rispetta, inoltre, uno dei punti chiave della definizione di revisione sistematica della Cochrane collaboration: “I metodi devono essere espliciti e riproducibili”. ChatGPT è stato addestrato su un set di dati sconosciuto, il che genera dubbi sulla trasparenza, accuratezza e sui possibili bias introdotti. Inoltre, con il susseguirsi delle versioni di ChatGPT, una risposta fornita da una versione potrebbe non corrispondere alla risposta ottenuta con un’altra. Ci sono quindi problemi di trasparenza, in aggiunta considerazioni etiche sull’authorship e sul valore dell’esperienza umana devono essere portate avanti parallelamente.
Riguardo alla trasparenza delle conoscenze di ChatGPT, è possibile interrogarlo sulle fonti delle quali si è servito, con il rischio però di incappare in “fake references”: dei veri e propri riferimenti bibliografici “falsi” forniti dal modello che non trovano riscontro nei database online. L’essenza stessa di ChatGPT, il suo essere un modello generativo, lo spinge a creare dei riferimenti plausibili (autori che hanno pubblicato lavori su argomenti simili, titoli pertinenti, fino addirittura alla generazione di codici doi) ma inesistenti. Haman e Skolnik, attraverso una prova empirica, hanno individuato il 66 per cento dei riferimenti come inesistenti.