L’introduzione dell’IA generativa (GenAI) apre prospettive rivoluzionarie per il settore sanitario. Secondo un recente rapporto di The Lancet su “Embracing GenAI in Health Care”, sino ad oggi le tecnologie legate all’intelligenza artificiale (IA) hanno conosciuto uno sviluppo limitato principalmente alla diagnostica, alla ricerca e allo sviluppo di farmaci, nonché alle cartelle cliniche elettroniche. Tuttavia, come vedremo qui di seguito, la GenAI ha il potere di trasformare il modo stesso in cui i medici operano. Questo passo in avanti tecnologico è guidato dai dati sintetici e dalla capacità della GenAI di generarli.
The Lancet menziona inoltre come il potenziale della GenAI nel campo della salute è stato recentemente sottolineato dalla partnership siglata tra Google Cloud e la Mayo Clinic nel giugno del 2023 dove l’IA verrà impiegata nelle cartelle cliniche elettroniche.
Esaminiamo allora di seguito non solo le applicazioni della GenAI e dei dati sintetici in medicina, ma anche il quadro legale attuale, insieme alle sfide che ci aspettiamo per il futuro. Dalla nostra analisi emerge chiaramente che la GenAI e i dati sintetici hanno importanti potenziali. Tuttavia, è imperativo mantenere sempre a mente i benefici, ma anche i rischi associati a queste tecnologie.
IA generativa: le potenzialità e gli ambiti di applicazione
La GenAI rappresenta la categoria più avanzata tra i diversi sviluppi di IA ed è basata sull’utilizzo di tecniche di natural language processing (NLP) per addestrare grandi dataset nella generazione di contenuti nella forma di testo, immagini, suoni, o ambienti virtuali. Il recente sviluppo esponenziale di large language model (LLM), come ad esempio ChatGPT, prevede nuove potenzialità di applicazione di tali modelli nel settore sanitario. In particolare, i modelli LLM possono contribuire a due specifiche classi di bisogni sanitari: l’efficientamento del processo di lavoro dei professionisti sanitari, e l’ottimizzazione – in termini di rapidità e potenziale qualità – del flusso informativo clinico a beneficio sia dei professionisti stessi sia dei pazienti.
Ad un primo livello, infatti, applicazioni LLM possono generare in modo automatico documentazione clinica di supporto con benefici in termini di risparmio di tempo e costi di coordinamento tra professionisti. Ambiti applicativi includono la trascrizione in tempo reale, codifica e produzione di sintesi di dialoghi – nell’ambito sia di visite con pazienti sia di riunioni di team interdisciplinari – con associati suggerimenti di follow-up.
Ad un livello più avanzato, tali modelli possono coadiuvare il processo decisionale clinico, formulando diagnosi e indicazioni di trattamento a partire dall’imputazione di una lista di sintomi e dati clinici, tanto più accurate quanto maggiormente integrate con sistemi di cartelle cliniche elettroniche. Alcune recenti applicazioni, come Hippocratic AI, prestano particolare attenzione agli aspetti compassionevoli ed empatici della relazione con il paziente, includendo tali aspetti negli output generati.
Uno degli ambiti più potenti e promettenti della GenIA è tuttavia la produzione di dati sintetici, come affrontato più nel dettaglio nella seguente sezione.
I dati sintetici prodotti dall’IA generativa
Ma che cosa sono in pratica i dati sintetici e come siamo arrivati a questa tecnologia? La necessità di salvaguardare le informazioni sensibili contenute nei dati (in particolare quelli sanitari) ha dato origine a diversi metodi di anonimizzazione che consentissero di proteggere la privacy e sfruttare al tempo stesso la potenzialità dei dati. Storicamente, il metodo più comune è stato rimuovere i nomi e altre informazioni identificative, sostituendoli con valori casuali. In sostanza, venivano eliminati tutti gli indicatori che potevano potenzialmente identificare in modo univoco un individuo o un gruppo di individui. Questa tecnica è stata denominata sottrattiva poiché rimuove i dati.
Tuttavia, questa tecnica di anonimizzazione si è rivelata tutt’altro che vincente. Infatti, unendo i database anonimizzati con le informazioni reperibili online, si è potuto spesso re-identificare gli stessi soggetti che si ritenevano protetti.
Il caso del Progetto Genoma Umano
Tra i vari casi, un esempio eclatante è stato il Progetto Genoma Umano che prevedeva il sequenziamento del DNA su vasta scala. Il database sui dati genomici è stato anonimizzato e reso pubblico negli anni ’90 affinché chiunque lo potesse utilizzare per le proprie ricerche. Tuttavia, nel 2004, i ricercatori hanno dimostrato che era possibile collegare i dati genomici anonimizzati con i dati sul polimorfismo a singolo nucleotide disponibili al pubblico e identificare un individuo.
Il vero problema delle tecniche di anonimizzazione è infatti quello del loro invecchiamento. Quando i dati genomici furono originariamente rilasciati negli anni 90, gli studi sui consumatori non erano ancora così popolari né facilmente reperibili online. Tuttavia, con l’avvento della digitalizzazione una cascata di informazioni è stata scaricata online permettendo di risalire agli individui originari. È quindi abbastanza difficile prevedere con precisione quali dati in futuro potrebbero essere disponibili in modo da rendere ciò che oggi viene ritenuto anonimo potenzialmente re-identificabile.
L’obiettivo dei dati sintetici
Per ovviare a questo problema, negli ultimi anni una nuova tecnica più sofisticata e sicura ha preso piede: i dati sintetici. L’obiettivo dei dati sintetici è quello di creare un set di dati quanto più realistico possibile, che non solo mantenga le sfumature dei dati originali, ma lo faccia senza mettere in pericolo importanti informazioni personali (ne ora e ne in futuro). I dati sintetici rappresentano un promettente passo in avanti che offre numerosi vantaggi rispetto ai metodi storici di de identificazione.
Per capire che cosa siano in pratica i dati sintetici, l’esempio classico è quello delle fotografie digitali. Esistono infatti immagini di persone che sembrano reali a tutti gli effetti, tranne che quelle persone non esistono. Le loro immagini sono state generate utilizzando l’IA e partendo da un database di fotografie di persone reali (come, ad esempio, persone che fanno parte di uno stesso gruppo) per poi crearne di fittizie. In poche parole, a speciali algoritmi di machine learning sono state fornite centinaia di migliaia di fotografie di persone reali per poi generarne di nuove.
I volti delle persone virtuali mantengono le stesse caratteristiche del gruppo originario (ad esempio la lunghezza del naso, la distanza tra gli occhi, le dimensioni della bocca), tuttavia non c’è alcuna copia di parte dei volti originari. Quello che viene utilizzato sono le informazioni per capire i modelli e le correlazioni per poi generarne di artificiali.
In poche parole, l’algoritmo impara e generare nuove immagini senza “riciclare” parti esistenti. Infine, l’elemento più importante è che teoricamente non è possibile risalire al gruppo originario partendo da quello artificiale. In gergo si chiama, de-identificazione e ciò l’impossibilità di identificare nuovamente i volti (i dati) originari.
La GenAI ci viene in aiuto nel generare i dati sensibili poiché, come avvenuto con le fotografie, al posto di mettere occhiali e baffi o coprire gli occhi con una striscia nera, ci permette di generare nuove immagini artificiali con le stesse caratteristiche di quelle originali, ma che rendano molto difficile identificare la foto originaria.
I dati sintetici assolvono ad alcuni task scientifici precisi: sono creati per sopperire alla mancanza di – o alle difficoltà di accesso a – grandi dataset di alta qualità. Il mondo sanitario rappresenta un naturale e attrattivo ambito di sviluppo e applicazione dei dati sintetici, grazie alla potenzialità degli stessi di rispondere a bisogni sanitari specifici. Il primo è, estendendo la motivazione appena ricordata, la necessità di sopperire alla scarsità o alla bassa qualità di alcune categorie di dati sanitari. Il secondo, di altrettanto fondamentale importanza, è la tutela della privacy nell’uso e nel trattamento dei dati clinici personali dei pazienti.
Le potenziali applicazioni sanitarie del dato sintetico
Le potenziali applicazioni sanitarie del dato sintetico combinano risposte a entrambe le categorie di bisogni. Il primo vasto campo di uso è quello epidemiologico e di sanità pubblica. Riproducendo le proprietà statistiche dei dati reali, i dati sintetici possono ampliare coorti rare o con molti outlier per tracciare e comprendere l’andamento di malattie, quali alcune tipologie di malattie infettive, di malattie genetiche rare o, ancora, di malattie la cui diagnosi è basata sull’analisi di molti dati non strutturati quali le malattie neurodegenerative.
Studiare trend demografici e nei trial clinici
Se usati su larga scala per studiare trend demografici, possono permettere anche di modellare diversi scenari utili alle politiche sanitarie pubbliche. Sempre nell’ambito della ricerca, i dati sintetici potrebbero essere usati come sostitutivi dei dati reali usati per trial clinici, soprattutto per finalità di analisi secondarie e studi di replicazione dove si renderebbe altrimenti necessario un nuovo – e difficile da recuperare – consenso informato dei pazienti.
Potenziamento di gemelli digitali
Un altro interessante campo di applicazione, più in ambito ospedaliero, è l’uso dei dati sintetici per il potenziamento di gemelli digitali (digital twin) e la creazione di modelli personalizzati di pazienti per l’ottimizzazione degli outcome clinici e di trattamento. Tali dati potrebbero aiutare a sopperire alla mancanza di informazioni specifiche rispetto alla storia clinica del paziente, e aiutare pertanto a simulare l’efficacia differenziale di diverse opzioni di trattamento. A livello organizzativo, gemelli digitali ospedalieri potrebbero invece aiutare la programmazione strategica e le operations per simulare scenari basati su diverse disponibilità e uso di risorse e volumi di attività.
Le sfide aperte per l’applicazione di IA generativa e dei dati sintetici
Nonostante le potenzialità applicative discusse finora della GenAI e dei dati sintetici, l’utilizzo di tali modelli e applicazioni in sanità, con particolare riferimento al contesto europeo e italiano, è ancora molto limitata. Se il gap implementativo è da ricondurre ad alcune motivazioni comuni alla più ampia categoria di IA in sanità, è altrettanto vero che la GenAI e i dati sintetici pongono delle sfide distintive. Dividiamo tali sfide in tre macro classi concettuali, dedicando all’aspetto regolatorio una sezione ad hoc.
Modalità di sviluppo e training dei modelli e degli algoritmi
La qualità dei dati primari alla base dello sviluppo dei modelli di GenAI e dei dati sintetici rappresenta una condizione critica per la loro affidabilità, poiché il rischio principale è l’amplificazione di bias insiti nei dataset originali. Nei casi inoltre di generazione di nuovi dati, è noto il rischio di “allucinazione”, che porta il modello a inventare risposte o decisioni. Altra sfida è legata al training dei modelli: se, da un lato, i modelli migliorano con l’input di dati da parte degli utenti, vincoli di privacy limitano la possibilità di nutrire il modello con dati clinici e personali di pazienti;
Responsabilità professionale (liability)
C’è ancora una mancanza di chiarezza rispetto al tema della responsabilità medica e professionale per le decisioni prese in base agli output della GenAI. La ancora minore interpretabilità di GenAI rispetto alla IA tradizionale può amplificare la percezione di scarsa fiducia nell’output e di aumentato rischio professionale in caso di errori del modello;
Incentivi organizzativi all’adozione
Come più ampiamente affrontato nella prossima sezione, la mancanza di una regolamentazione specifica delle applicazioni di GenAI e dei dati sintetici in sanità rappresenta un disincentivo alla loro adozione a livello clinico ospedaliero, soprattutto in sistemi sanitari pubblici e universalistici come il Sistema Sanitario Nazionale (SSN) italiano. Chi finanzia questi modelli? Chi rimborsa le eventuali applicazioni? Lo sviluppo di modalità parzialmente open source e gratuite adottate oggi da modelli LLM come ChatGPT mostrano limiti in termini di controllo sulla diffusione dei dati e sono difficilmente applicabili ad aziende ospedaliere che necessitano di mantenere una ownership istituzionale sui dati organizzativi interni e su quelli dei propri pazienti.
L’aspetto regolatorio
Guardando all’aspetto regolatorio, la creazione di dati sintetici è un ottimo esempio di come una nuova tecnologia metta duramente alla prova il quadro normativo globale esistente. I dubbi vertono sulla questione se i potenziali benefici e rischi che i dati sintetici comportino possano essere disciplinati dalle normative attuali o se invece siano necessarie nuove leggi.
Tra le domande più frequenti vi sono quelle se questi siano legali e se tutelino effettivamente la privacy. Anche se la risposta può sembrare semplice: “si, sono legali ed inoltre, non essendo reali, non ricadono nella normativa privacy” la questione richiede una risposta più articolata.
Ci sono innanzitutto argomenti che ritengono che i dati sintetici siano sicuramente legali, rispettino e promuovano le regole della privacy e che addirittura non debbano nemmeno essere sottoposti a queste. Secondo questi, i dati sintetici potenzialmente promuovono i principi del GDPR di equità del trattamento, di liceità, (spesso riflesso nell’obbligo del consenso), di sicurezza, di minimizzazione e di qualità dei dati. Alla luce di questo, le autorità di regolamentazione della privacy raccomandano l’uso di dati sintetici in determinati contesti. Alcuni sostenitori addirittura affermano che combinando i dati sintetici con un’altra tecnica di anonimizzazione, la differential privacy, il set di dati risultante rispetti sia la privacy che fornisca la massima utilità ai dati. Infine, questi sostenitori considerano i dati sintetici anonimi e quindi non disciplinabili da alcuna normativa della privacy.
Esistono tuttavia argomenti ben più critici che respingono tali affermazioni e che ritengono che i dati sintetici non garantiscano la massima anonimizzazione e che si debbano applicare le regole della privacy. Vi è infatti evidenza che rimangano rischi residui di identificazione nei set di dati sintetici, a seconda dei metodi utilizzati e della natura dei dati di output. Inoltre, dal momento che ogni legge sulla privacy ha una definizione diversa su quali siano le informazioni personali che possano identificare un soggetto (PII) è molto difficile capire se i dati sintetici siano totalmente escludibili dalla definizione di PII e quindi non disciplinabili da alcuna legge.
Le prospettive
L’idea generale è che la tecnologia sia ancora molto nuova e complessa, me che le autorità competenti in tutta l’UE, nel Regno Unito e negli USA siano cautamente positive riguardo al potenziale dei dati sintetici come mezzo per salvaguardare la privacy, pur riconoscendo che potrebbero permanere alcuni rischi. Il consenso generale sembra essere che se i dati di input o di formazione siano “dati personali” si presume che i modelli e i dati (sintetici) di output rimarranno dati personali a meno che non si possa dimostrare con sicurezza un’effettiva anonimizzazione. Si applicheranno quindi le normative sulla privacy.
Per operare nella massima ottemperanza e sicurezza, gli sviluppatori e gli utenti di dati sanitari sintetici dovrebbero continuare a trattare i dati sintetici come dati personali a meno che non possano dimostrare con certezza che il rischio di identificazione sia stato ridotto a livelli remoti o trascurabili. Ciò richiederà un’attenta considerazione della natura tecnica dei dati, nonché dei controlli legali e organizzativi legati ai dati ed in linea con le migliori pratiche in materia di valutazioni d’impatto sulla protezione dei dati e di anonimizzazione.
Una visione alternativa potrebbe essere quella di considerare alcune forme di dati sintetici come dati non personali, salvo diversa dimostrazione. In questo caso, sarebbe richiesto un approccio molto più specifico alla questione da parte dei regolatori, esaminando realmente le prove relative a metodi specifici per generare e salvaguardare dati sanitari sintetici.
Anche se ciò richiederà un notevole impegno da parte degli enti regolatori e dei ricercatori sanitari, i benefici derivanti da tale attuazione potrebbero essere significativi per la ricerca sanitaria, l’innovazione e la cura dei pazienti.
Infine, si potrebbe sostenere che esistono ancora molte questioni sui potenziali rischi derivanti dai dati sintetici che non possono essere completamente affrontate utilizzando la legislazione esistente. Questo richiederà sicuramente nuovi approcci normativi.
Le priorità su cui investire
A fronte delle sfide sopra discusse, si propongono due macro-direttrici di intervento per favorire l’adozione e diffusione di GenAI in sanità.
Per quanto concerne le sfide sullo sviluppo di tali modelli, la comunità scientifica internazionale sta convergendo sulla necessità di addestrare i modelli foundation tramite fonti scientifiche validate e dataset esclusivi di natura clinica e medica. Inoltre, il movimento verso tecniche di Explainable AI (XAI) che permettono una migliore comprensione ed interpretabilità degli output e pertanto una maggiore accountability troveranno un ambito di applicazione sempre maggiore in GenAI e nei dati sintetici, e alcune tecniche XAI si stanno sviluppando in modo specifico per l’ambito sanitario. Infine, come sta avvenendo per diverse grandi aziende private in settori diversi dalla sanità, gli aspetti di privacy e controllo dei dati possono essere garantiti dallo sviluppo interno delle applicazioni GenAI, con l’acquisto dei modelli foundation e il loro successivo addestramento con dati proprietari. Sebbene i costi di tali soluzioni siano ad oggi ancora eccessivi per una realtà ospedaliera aziendale individuale, l’adozione di logiche di rete regionale o nazionale permetterebbe di sviluppare economie di scala e di specializzazione.
Per quanto concerne l’aspetto regolatorio ciò che pare evidente è che nessuna tecnica di anonimizzazione risolverà completamente il problema della sicurezza dei dati e della tutela della privacy. Infatti, quando l’utilità dei dati è di primaria importanza, né i dati sintetici né la differential privacy (e nemmeno la combinazione delle due) potranno sostituirsi al valore fornito dai dati originali. Infatti, sebbene i dati sintetici utilizzino tecniche additive piuttosto che sottrattive e siano una replica statisticamente quasi identica dei dati originali, ciò non cambia che i dati originali siano sempre i più ideali da utilizzare in qualsiasi analisi. Tuttavia, quando tale opzione non potrà essere disponibile, i dati sintetici e la differential privacy offrono, attualmente, un ottimo compromesso.
Conclusioni
Come detto sopra, si evince che le comunità scientifica e legale sembrano andare nella direzione di accettare i dati sintetici come un valido passo in avanti per risolvere i problemi legati alla tutela della privacy. Tuttavia, sebbene i dati sintetici siano migliori delle tradizionali tecniche di anonimizzazione e potrebbero essere consentiti in alcune circostanze, le leggi attuali sono inadeguate, poiché non contemplano appieno né i benefici, ne i rischi che tali dati potranno comportare. Questo potrebbe essere il momento giusto per regolamentare uno strumento che sta diventando sempre di più di grande utilità.
Pertanto, questo articolo raccomanda che la comunità della privacy consideri i dati sintetici come un altro strumento valido nel sempre crescente ventaglio di strumenti sulla privacy; uno che dovrebbe essere meglio accolto dalla legge in termini di autorizzazioni e limitazioni esplicite, ma che ha il potenziale per offrire grandi vantaggi se utilizzato correttamente.