Cardiologia e la nuova intelligenza artificiale

Data: Martedì 4 Maggio 2021

Intervento del Prof. Ing. Federico Cabitza, professore associato di interazione uomo-macchina Dipartimento di Informatica, Sistemistica e Comunicazione Università degli Studi di Milano-Bicocca, all’interno del webinar Intelligenza artificiale e cardiologia.

Per leggere la trascrizione del video fare click sull’icona +.

Trascrizione

Io ho chiamato il mio intervento: Cardiologia e la nuova intelligenza artificiale; non sono stato provocatorio, però effettivamente ho sottolineato questa discontinuità rispetto al passato. 
La nuova intelligenza Artificiale: Alexander, nel suo intervento precedente ha parlato di un approccio sub simbolico e approccio simbolico; in realtà il primo a essere introdotto dalla disciplina, che ha 70 anni, è stata fondata grossomodo nella metà degli anni cinquanta, è nato prima il sub simbolico, quello del del percettrone, quello delle reti neurali.

Adesso è ritornata di moda, anche se nuova non è perché è un ritorno di fiamma. Sicuramente c’è una discontinuità rispetto all’intelligenza artificiale, come i medici e anche i cardiologi la conoscono; infatti, avendo avuto modo di lavorare insieme ai cardiologi, io so che c’è una specie di pregiudizio nei confronti di quelle funzionalità che sono state vendute come Intelligenza artificiale. Per esempio, per supportarli nell’interpretazione degli elettrocardiogrammi che la maggior parte dei cardiologi, con cui ho parlato, considerano di utilità praticamente nulla. Effettivamente quella è un esempio di sistema esperto, cioè come veniva chiamata l’intelligenza artificiale degli anni 90; erano dei sistemi di “macigni”, a me piace l’idea del macina caffè perché di fatto noi ci mettiamo le informazioni, ma non cambia molto concettualmente.

Venivano inserite delle regole e dei modelli decisionali che si pensava venissero adottati dai medici, nel loro ragionamento e davano degli allarmi o dei suggerimenti che generalmente, non tutti ovviamente, venivano considerati di scarsa utilità;
e che quindi non ripagassero anche l’investimento, in termini di tempo, che in qualche modo era stato richiesto anche ai medici per fare l’esternalizzazione della loro conoscenza procedurale. 
La nuova intelligenza artificiale che si sta ormai consolidando, è emersa all’interesse dei medici, a metà del decennio scorso; con alcuni articoli molto discussi su alcune riviste ad alto impatto, come Jama, New England e The Lancet; Invece è un po’ diversa, è inutile nasconderlo. Perché anziché partire dalle regole, parte dai dati disponibili, cioè i dati stessi che sono stati prodotti da medici e pazienti che si possono trovare nelle cartelle cliniche o addirittura l’imaging diagnostico.
Elaborando ed applicando delle metodologie di carattere statistico-matematico, fornisce delle advice, dei suggerimenti, degli allarmi, che sono associati, anche con validazioni esterne, ad un’accuratezza pari a quella degli esseri umani se non addirittura superiore. C’è un famoso studio, pubblicato da The Lancet, che facendo una meta Review degli studi fino a quel momento arrivati, poteva sostenere che c’era una sostanziale parità tra radiologi e diagnosti umani e i migliori sistemi intelligenze artificiali. Condivido però il caveat, anche in qualche modo espresso da Alexander, relativamente alle difficoltà di trasferibilità di questi sistemi, dal contesto di laboratorio o dal contesto anche medico in cui sono stati sviluppati ad Altri setting; dove magari la qualità dei dati cambia, oppure il processo di produzione del dato è diverso e quindi in qualche modo viene alimentato il sistema di machine Learning e di intelligenza artificiale, con dati diversi da quelli su cui è stato addestrato.

L’intelligenza artificiale è un termine molto ampio: ogni volta che se ne parla si vuole dare ovviamente una definizione e non lo trovo un abuso di posizione, lo trovo anzi un modo per essere chiari ed essere franchi. Da ingegnere informatico che si occupa da parecchio tempo di questi temi, a me piace condividere quello che è l’approccio, la prospettiva, dell’intelligenza artificiale milanese. Io ho avuto la fortuna di studiare con Prof. Dadda, uno di quelli che ha portato i primi computer in in Italia dagli Stati Uniti, e anche con il Prof. Somalbico, uno dei padri Fondatori dell’intelligenza artificiale. Per questa, diciamo classe di ingegneri della prima ora, da cui ho cercato di apprendere il più possibile nei pochi mesi in cui li ho frequentati, l’intelligenza artificiale è l’automazione di compiti complessi per cui è richiesta l’intelligenza da parte degli esseri umani. Quindi: l’intelligenza artificiale è l’automazione di compiti intelligenti, non è l’espressione di un’intelligenza artificiale.

Ma questo termine, per quanto fantasioso e creativo, è anche una delle cause della grande fortuna che questa disciplina ha in qualche modo attirato, l’interesse sempre crescente; anche a volte creando delle false promesse che poi non è riuscito a mantenere, come è successo in diverse fasi storiche del suo sviluppo. Se pensiamo a come effettivamente, concretamente, l’intelligenza artificiale possa aiutare, non solo la cardiologia ma tante altre discipline mediche, possiamo pensare: alla prevenzione nei termini Early detection, l’identificazione precoce di una certa malattia ancora prima che i sintomi siano manifesti, quindi quando la manifestazione è ancora sub clinica. La gestione degli studi clinici e di studi randomizzati, per esempio nella difficile e costosa fase della selezione e arruolamento dei pazienti perché in qualche modo possiamo applicare tecniche di intelligenza artificiale per identificare quelli che sono i fenotipi che caratterizzano al meglio e rendono più rappresentativo il campione che evidentemente vuole rappresentare la popolazione più ampia. Lo sviluppo e in qualche modo la scoperta di nuovi farmaci. Il caso abbastanza da manuale analisi è Halicin, si chiama così in onore di una delle intelligenze artificiali più della cinematografia Hal 9000 di 2001 Odissea nello Spazio, anche se forse non è proprio un nome azzeccato, per quanto quella intelligenza artificiale fosse disposta nei confronti degli esseri umani.

E poi soprattutto, il supporto decisionale, dico soprattutto perché è questo che conosco meglio, sia in termini triage che di diagnosi, prognosi e di pianificazione del trattamento. Io mi sono occupato specificatamente di diagnosi e prognosi, ultimamente, applicando tecniche di machine learning alla diagnosi del COVID-19, a partire dall’emocromo; Quindi da esami alternativi, al tampone o ad altri test antigenici, molto meno costoso e molto rapido, che in qualche modo può aiutare anche nella gestione di lungo corso del COVID se, come si spera, presto questa malattia diventerà endemica e diventerà una brutta polmonite; che comunque è necessario monitorare nei pazienti che accedono ad una struttura sanitaria. Quindi io vi parlo soprattutto dell’intelligenza artificiale come supporto cognitivo, come dice giustamente Alexander, al processo decisionale, al decision Making medico; tipicamente diagnosi e prognosi.  Posso saltare felicemente queste slide che in qualche modo Alexander ha reso pleonastico e ridondanti. L’unico lavoro che avevo fatto, era stato quello di contare gli articoli che oltre a machine learning e deep Learning, nel titolo o nell’abstract, avessero anche cardiologi nel testo e possiamo vedere che l’andamento negli ultimi anni è comunque esponenziale tanto se lo guardiamo su Scopus quanto se lo guardiamo su Pubmed.

Poi volevo fare un riferimento, per fare un po’ da contraltare all’interesse accademico, che si sa, il nostro mestiere e anche quello di scrivere articoli; In realtà volevo fare un riferimento, anche al numero di approvazioni, per la diffusione nel mercato da Parte della Food and Drug Administration, di dispositivi che al loro interno dichiarassero d’avere un’intelligenza artificiale come software. Possiamo vedere che la cardiologia, se non è una delle discipline più rappresentate nella produzione accademica, in realtà è molto ben Rappresentata in questo genere di prodotti; quindi in qualche modo, attira molti Investimenti e c’è molto Interesse, diciamo a livello Applicativo. Possiamo vedere che la disciplina regina è la radiologia, subito dopo c’è la cardiologia insieme all’oncologia; e tra questi, i Sistemi che in qualche modo hanno fatto parlare i medici, anche per il confronto con questi sistemi tipicamente diagnostici, sono queste quattro aziende che vedete citate in questa slide. Era semplicemente per fare un punto nave, un beneficio di inventario.

Io in realtà, quando mi propongo, come persona che può aiutare un medico o un gruppo di medici a capire se l’intelligenza artificiale fa al caso loro oppure no, perché c’è anche questo caso, io in realtà mi presento come un interazionista; cioè un esperto, se così possiamo dire, di interazione uomo-intelligenza artificiale. Per spiegare il lavoro che faccio di solito disegno sul block notes una specie di Loop, di ciclo, che fa capire quali possano essere le Interazioni tra l’intelligenza artificiale (a destra) e Il punto di cura (a sinistra); faccio notare che ci sono almeno due collegamenti che sono interessanti, quello dall’intelligenza artificiale al medico ma anche quello dal medico all’intelligenza artificiale. L’intelligenza artificiale vedetela anche come processo di sviluppo dell’intelligenza artificiale. Mentre a sinistra vediamo il deployment. Ricerca e sviluppo a destra e il deployment, l’operation a sinistra. Possiamo dare diversi nomi a queste traiettorie: possiamo riconoscere il suggerimento, l’advice provision, possiamo riconoscere ovviamente il decision making, quando il suggerimento dell’intelligenza artificiale dev’essere integrato all’interno di un ragionamento, del medico, che può usare tanto il sistema uno quanto il sistema due. Giustamente, ha citato Alexander, il fatto che possono contribuire diversi fattori anche cognitivi in questo processo.

Abbiamo il lavoro di produzione del dato, un aspetto che di solito viene considerato marginale e che invece, gli interazionisti, considerano fondamentale; perché se la qualità del dato è bassa non può certo essere alta la qualità dell’output dei sistemi che si addestrano a partire dai dati. Poi c’è il training: cioè quella fase di sviluppo semiautomatico che ci permette di costruire questi algoritmi, questi modelli, in grado di riconoscere dei pattern significativi, degli schemi significativi, sui dati che vengono forniti loro. Una cosa che però mi appresto a dire, perché faccio ricerca su questo tema, è che è in realtà purtroppo bisogna cancellare dei tratti, cioè ci sono due iati in questo loop, che di fatto è un loop aperto, inserito in diversi sistemi complessi che interagiscono tra di loro, anche in maniera non del tutto prevedibile. Io che non ho certamente il pallino dei nomi di grande diffusione, non sono un copywriter, li ho chiamati nelle mie conferenze “lo iato della fiducia umana” cioè se il medico non si fida del suggerimento dell’intelligenza artificiale, l’intelligenza artificiale non potrà certo avere un impatto positivo; forse non potrà avere nessun impatto nel processo decisionale del medico, quindi non potrà neanche contribuire a migliorare la cura, migliorare gli esiti, come percepisce il paziente.

Dall’altra parte abbiamo “lo iato dell’esperienza macchina”: questa sembra l’espressione più esoterica, più fantasiosa ma in realtà “Machine Experience” è esattamente il termine tecnico che usa uno dei padri fondatori del machine learning, dell’apprendimento automatico, per indicare tutto ciò che serve alla macchina per poter addestrare un modello di intelligenza artificiale, di nuova generazione. Questo chiaramente è lo Iato tra il medico che produce i dati, per avere un supporto ai suoi processi decisionali alla cura, quanto per documentare, per motivi medico legali quello che fa e il lavoro degli informatici propriamente detti.

Ebbene io vorrei raccontarvi, molto brevemente, di tre studi che ho fatto, in questo loop imperfetto. La prima cosa su cui vorrei concentrarmi, è lo iato della Machine Experience: il modo più semplice di descrivere la pipeline, quindi la linea di produzione del machine learning; si parte da un insieme di dati di riferimento, considerati di buona qualità e tutti associati ad una diagnosi corretta che noi chiamiamo, questo data set di riferimento, il “Ground Truth” (verità di riferimento). Questi dati vengono mandati in input ad un processo semiautomatico, dove c’è tanta creatività umana e c’è anche tanta elaborazione informatica, chiamato learning; e l’output di questo processo è un modello di machine learning che può essere poi applicato a nuovi dati, all’interno dei quali, questi modelli, cercano di riconoscere gli schemi che hanno appreso a partire dal “Ground Truth”. C’è questo famoso modo di dire: “Gigo” garbage-in, garbage-out; significa che se la verità di riferimento, il Ground Truth, non è di alta qualità, non possiamo aspettarci che il modello di machine learning sia veramente accurato. Può essere accurato da un punto di vista prettamente statistico, ma poi una volta applicato a dati veri, medici, a supporto della clinica di tutti i giorni, in realtà le sue prestazioni sono assolutamente indecorose ed inutilizzabili.

Vorrei parlare della cosiddetta “Spork Fallacy” e degli elefanti nella stanza dell’intelligenza artificiale medica. 
Quegli argomenti che molti ricercatori di intelligenza artificiale conoscono ma che preferiscono non parlarne. 
Ad esempio, prima Alexander, ha fatto vedere questo lavoro di questi 20-25 ricercatori di google: quando è uscito, vi assicuro i medici saranno rimasti impressionati, ma molti informatici che fanno il mio mestiere, invece hanno detto: “Ecco benvenuti sono arrivati”. Con l’autorevolezza di chi lavora presso una delle più importanti aziende al mondo (ovvero Google), hanno ripetuto ovvietà che nella comunità dell’IA sono più che note; però l’hanno fatto, ovviamente, da un pulpito importante e ben venga perché hanno attirato l’interesse verso problemi di cui di solito non se ne parla. 
Io nel mio piccolo, assolutamente rispetto a Google sono infinitesimale, ho parlato di altri due grandi elefanti, di cui nessuno parla e che sono piuttosto ingombranti. Partiamo dalla cosiddetta Spork Fallacy: non è una parolaccia, “Spork” è nient’altro che una “fork” che è anche un po’”spoon”, cioè appunto un cucchiaio che fa anche un po’ da forchetta. 
Non so se vi ricordate il famoso film “Wall-e” del 2008, della Walt Disney, Wall-e è un piccolo Robot collezionatore, un’intelligenza artificiale molto simpatica che ad un certo punto si trova di fronte uno Spork e non sa dove metterlo, tra i cucchiai e le forchette. In un certo senso la medicina è piena di questi casi, casi difficili da collocarle in una categoria ben definita rispetto che a tante altre categorie. Non dico che la medicina sia tutta una scala di grigi, ma è molto frequente. Interagendo con i cardiologi, ho capito sulla mia pelle che è molto frequente la presenza di casi ambigui, difficili da catalogare con una specifica etichetta e che spesso sarebbero ben messe sia in una categoria concettuale che in un’altra.

Il primo elefante di cui vi parlo, che ho raccontato in un articolo intitolato “l’elefante nella cartella”, riguarda un fenomeno che molti di voi conoscono, L’inter-rater agreement, o meglio, disagreement, e la variabilità tra osservatori. Abbiamo fatto uno studio, in cui abbiamo mostrato a 75 cardiologi un elettrocardiogramma, di una donna di 77 anni, preso da un famoso sistema, di formazione continua in cardiologia; perché in qualche modo ce lo descrivessero, nella maniera più compiuta possibile, compilando un form molto dettagliato. Qui vediamo 75 cardiologi, abbastanza rappresentativi della categoria, il nostro lavoro non voleva essere un sondaggio/censimento ma semplicemente un lavoro con un ampio campione di utenti. Potete notare che la maggior parte di loro erano uomini, con una expertise piuttosto importante; più del 40% aveva più di dieci anni di esperienza alle spalle, con una capacità di lettura dell’Elettrocardiogramma nella maggior parte intermedia e addirittura il 12% avanzata. Abbiamo chiesto loro di descrivere questo elettrocardiogramma, attraverso 39 domande di tipo SI/NO, 12 di tipo descrittivo e 27 invece in termini di lettura morfologica del tracciato; in particolare ci focalizzavamo sul vettore QRS, sulla conduzione atrioventricolare o altri aspetti morfologici. Abbiamo riscontrato una certa variabilità, lo dico in termini un po’ eufemistici, perché per ciascun item abbiamo visto quanta gente fosse concorde nel dire sì o nel dire no. Quindi per ogni item, abbiamo abbiamo osservato delle maggioranze, che si potrebbe pensare, dovrebbero essere tutte schiaccianti, può sbagliare un 5% delle persone, però il 95% in realtà concorda nel dire se c’è una certa cosa oppure no.

In molti item di tipo descrittivo del caso e in altrettanti item di tipo morfologico, la distinzione è tra rombi rossi e cerchi blu, possiamo vedere che in realtà le maggioranze erano erano molto più risicate anziché la maggioranza schiacciante. Addirittura la maggior parte degli item aveva una maggioranza inferiore al 95% alcuni addirittura sfiorano il 50%, quando non possiamo stabilire una maggioranza e quindi di fatto per quell’ item non sapremo che pesci pigliare; quindi nel Ground Truth in realtà, non potremmo mettere un dato né un altro, oppure mettiamo un dato ma con una confidenza piuttosto bassa. Qui indico gli intervalli di confidenza delle proporzioni osservate. Traducendo questa variabilità, attraverso una metrica che è l’alpha di Krippendorff, abbiamo osservato un accordo che è di fatto inaffidabile per qualunque task poi si possa utilizzare quei dati a supporto del machine learning. Nel caso specifico, non so se vi intendete di alpha di Krippendorff, altri usano la kappa di Fleiss o di Cohen, sono tutte metriche abbastanza simili; sono una misura del grado di accordo degli osservatori che abbiamo coinvolto, una volta che avessimo scontato l’apporto del caso perché uno potrebbe essere d’accordo con un altro medico anche per caso. Questa è una metrica che cerca di togliere il caso. 
Vediamo che è molto inferiore all’80% che è considerata la soglia accettabile per farci ricerca, ma addirittura inferiore al 60%-66% che è considerata la soglia minima di affidabilità, è infatti intorno al 55%. Quindi di fatto il Ground Truth che descrive un elettrocardiogramma, con tutto il tempo necessario, perché le persone si sono prese circa 10 Minuti in media per leggere l’elettrocardiogramma. Pur avendo lo stesso elettrocardiogramma di fronte, i cardiologi coinvolti, non si mettevano d’accordo, ciascuno era autonomo e indipendente, su come descriverlo; sia in termini di descrizione anamnestica sia in termini di forma dei reperti dell’elettrocardiogramma.

Partendo da questa considerazione, il secondo elefante di cui vorrei parlarvi, di cui ho discusso in un articolo che ho intitolato “l’elefante nella macchina”: È proprio il discorso dell’addestramento. Se avete un certo modello di machine learning che è accurato al 90%, per esempio la linea obliqua sulla destra a metà quella arancione, in realtà considerando l’inaffidabilità dei dati di partenza e quindi la reliability, in questo caso calcolata nel modo più semplice che si può calcolare, ovvero con la percentuale di accordo tra gli osservatori; in realtà voi vedete, attraverso questo nomogramma, che dovreste scontare un po’ d’inaccuratezza. Ad esempio: se avete dei dati che sono affetti da una certa inaffidabilità, cioè la percentuale di agreement non è il 100% ma è l’85%, allora il modello di machine learning che da un punto di vista statistico può vantare un’accuratezza del 90% in realtà ha un’accuratezza dell’86% e ci può essere anche uno scarto di 7-10 punti percentuali; voi potreste pensare che non sono una gran cosa, ma in realtà gli informatici si scannano per una frazione di percentuale, di accuratezza e considerano un grande avanzamento anche migliorare dell’1% l’accuratezza diagnostica. Quindi uno scarto del 10%, solo perché hai un Ground Truth che non è di qualità, è un grande elefante nella stanza, di cui pochi parlano.

Adesso molto velocemente, vi riferisco anche agli altri due studi, più sullo iato della fiducia dell’essere umano. 
Di questo ne ho parlato in un articolo, dove mi sono focalizzato sul second opinion. Immaginiamo un setting dove c’è un medico cardiologo che formula una diagnosi relativa ad un paziente, guardando l’elettrocardiogramma; consulti magari per legge lo deve fare, pensiamo un nuovo processo decisionale, l’intelligenza artificiale proponga una diagnosi diversa da quella che lui ha formulato e a quel punto il medico si affida ad un collega umano per una second opinion e quindi in qualche modo, arrivare alla diagnosi vera e propria; magari per maggioranza o quantomeno con il confronto di un collega. Anche in questo caso abbiamo coinvolto 75 clinici, diversi, di un altro studio, che ci hanno fornito 246 interpretazioni univoche interpretando tre elettrocardiogrammi presi sempre dallo stesso repository, il Wave-Maven. Erano tutti elettrocardiogrammi di una certa difficoltà, non massima, in una scala da 1 a 5 avevano difficoltà 4, in modo che fosse credibile il fatto che poi questi 75 clinici potessero essere coinvolti come second opinion experts. Questo task è durato mediamente 10 minuti, avevano la possibilità di vedere l’elettrocardiogramma, di poter fare anche uno zoom attraverso un sistema informatico; vedendo la diagnosi data dall’intelligenza artificiale e la diagnosi data dal collega umano, dovevano decidere se confermare una delle due oppure se proporne una terza e ulteriormente diversa. Nell’interfaccia loro vedevano la descrizione standard del caso, presa da questo repository, avevano la funzione di vedere con attenzione l’elettrocardiogramma; poi gli veniva chiesto di valutare sia l’attendibilità sia la confidenza che potevano riporre su quella diagnosi, confrontando appunto la diagnosi data da un collega esperto che si diceva nella descrizione del caso, avesse almeno 26 anni di esperienza e un’intelligenza artificiale di ultima generazione che veniva connotata come accurata al 96-97% dei casi. Il punto era – e qui sta un po’ il trucco della nostra ricerca – che le diagnosi viste dal campione di utenti erano esattamente le stesse, tanto per l’intelligenza artificiale che per il collega umano. In poche parole, nella randomizzazione del campione, le persone vedevano le stesse diagnosi a rotazione o fatte dall’intelligenza artificiale o fatte dal medico, dal collega umano.

Cosa avremmo visto? Beh qui stiamo confrontando semplicemente le proporzioni di risposta: vediamo che in generale le persone davano più fiducia, confermavano più spesso, più frequentemente la diagnosi del collega umano; anche se era assolutamente equivalente, nei grandi numeri, alla diagnosi fornita dall’intelligenza artificiale. I medici che facevano di professione i cardiologi, erano quelli più scettici nei confronti dell’intelligenza artificiale e che davano più retta, diciamo così, più fiducia al collega umano. I non cardiologi che comunque avevano esperienza di lettura degli elettrocardiogramma, invece, erano un pochettino più sbilanciati a favore dell’intelligenza artificiale. Abbiamo poi confrontato quelli che avessero avuto un’esperienza minore di dieci anni, un’esperienza maggiore dieci anni, uomini, donne, abbiamo trovato varie differenze. Guardate soprattutto il box plot in basso a destra, vediamo proprio l’attendibilità percepita. L’attendibilità percepita dell’opinione umana era significativamente più alta della attendibilità percepita delle diagnosi fornite dall’intelligenza artificiale. 
Così anche un po’ la confidenza percepita, cioè potersi affidare alla diagnosi del collega umano, poterla confermare, li rendeva più confidenti della loro conferma che nel caso fosse stata la diagnosi suggerita dall’intelligenza artificiale.

Abbiamo osservato: un certo bias di conformità, cioè il fatto che le persone coinvolte in un esercizio, in un gioco di second opinion, tendessero dare retta o all’intelligenza artificiale o al collega umano; mi sono dimenticato di dirlo: in realtà entrambe le diagnosi erano sbagliate; sarebbe stato corretto fornire una terza diagnosi, peraltro giusta.

Il vero fenomeno che abbiamo osservato che ci ha interessato, è proprio il pregiudizio contro la macchina. 
Quindi nello iato della fiducia umana, ci sta il fatto che, almeno ad oggi, questo è uno studio fatto un anno e mezzo fa, tendiamo a considerare la diagnosi, fornita da una macchina, più sbagliata rispetto alla stessa ma fornita da un medico umano; quindi c’è un pregiudizio nei confronti di quello che può fare intelligenza artificiale.

L’ultimo studio che vi faccio vedere, invece, va nell’ambito dell’Explainable AI: l’intelligenza artificiale spiegabile. Siamo sempre nell’ambito dell’elettrocardiogramma; sopra vedete il disegno tipico del supporto decisionale elettrocardiografico, quando c’è l’intelligenza artificiale di nuova generazione nel loop. 
Abbiamo un classificatore che è in grado di dirci, se un elettrocardiogramma è associato ad un caso normale oppure abnormale, questo suggerimento viene fornito. Nel setting dell’explainable AI invece, la macchina cerca di spiegarsi: cioè oltre a dire se è normale o anormale, evidenzia quelle parti che per lui sono informative, relativamente a quella specifica diagnosi; con questa indicazione aggiuntiva, spera che il medico possa capire il perché gli dice che è abnormale e quindi arrivare ad una diagnosi più corretta. Cercando anche di capire se la macchina si sta sbagliando, evidenziando cose che non c’entrano nulla con l’abnormalità.

Questo è un tipico esempio di elettrocardiogramma che viene colorato in funzione di qual è la parte più rilevante, alla luce della diagnosi fornita; le parti in rosso sono le parti più rilevanti, le parti in blu sono quelle meno rilevanti, quelle meno decisive, per poter dire se è anormale oppure no. Abbiamo considerato quattro tipologie di battito: il battito non ectopico, l’ectopico sopraventricolare, quello ventricolare e il battito fusion. Si facevano vedere 4-5 battiti, chiedendo al medico di focalizzarsi sull’ultimo battito che veniva appunto colorato, evidenziato con quello che viene chiamato “Visual Aid”, cioè un supporto visuale. L’intelligenza artificiale, lo vedete in alto a destra, era piuttosto accurata ma non perfetta, cioè aveva un’area sotto la curva per le varie tipologie di battito, intorno all’88-87% per cento; quindi un buon supporto ma non stratosferico.

Quindi le persone sapevano che avevano a che fare con un l’intelligenza artificiale, molto buona ma imperfetta e quindi l’aiuto visuale poteva aiutarli a capire se si trattasse di un caso che era stato diagnosticato correttamente oppure no.
Il problema qual è stato? Abbiamo coinvolto un cardiologo, uno specializzando e un neolaureato, dopo aver visto il Visual Aid il cardiologo esperto e lo specializzando hanno addirittura peggiorato la loro performance del 5%. Hanno sbagliato, sono stati indotti a sbagliare un caso, su 20; Inoltre la spiegazione visiva non ha aiutato il cardiologo ad evitare ben 6 errori poiché questi, ha confermato la sua risposta sbagliata iniziale, in ben 6 casi; aveva sbagliato inizialmente, ha visto il Visual Aid ma non è riuscito a correggersi e addirittura in un caso che aveva identificato correttamente quando non aveva il supporto dell’intelligenza artificiale, aveva addirittura cambiato idea, sbagliando.

Quando abbiamo chiesto loro dell’utilità del Visual Aid abbiamo visto che effettivamente avevano opinioni diverse.
Il cardiologo, il neolaureato e lo specializzando. Il cardiologo e lo specializzando: sono stati quelli in qualche modo più critici; hanno considerato che in molti casi, addirittura 5 o 6, il suggerimento fosse fuorviante. 
Il neolaureato invece ha trovato il supporto non del tutto inaspettatamente più utile.  
Abbiamo anche chiesto, quanto la visualizzazione, questa colorazione, dell’elettrocardiogramma fosse tipico del tipo di battito che veniva suggerito; anche in questo caso abbiamo visto delle risposte diverse, a seconda che la risposta fosse data da un cardiologo, da uno specializzando o da uno studente di medicina. 
La cosa più interessante è che è stato trovato molto specifico il Visual Aid, soprattutto per il battito ectopico ventricolare, mentre è stato trovato molto meno tipico per gli altri tipi di battito.

Una cosa che abbiamo riportato nell’articolo, che ci è stata detta dallo studente neo-laureato, è che effettivamente lui aveva studiato su dei libri che in qualche modo, aiutavano l’interpretazione del battito cardiaco e dell’elettrocardiogramma, in maniera diversa da come l’intelligenza artificiale aveva appreso i suoi pattern, i suoi schemi per potersi basare per dare la sua diagnosi.

Cosa ha detto? 
“formare i futuri medici con questo sistema potrebbe renderli capaci di comprendere i correlati morfologici tra le forme enfatizzate e la giusta classificazione e sfruttare queste “spiegazioni” come indicazioni complementari rispetto alle regole elettrocardiografiche stabilite e altre informazioni cliniche disponibili. 
Quindi qui c’è quasi un’interazione nell’apprendimento, cioè l’intelligenza artificiale ha capito in qualche modo, delle cose che di solito gli esseri umani non notano, o non guardano, perché si basano su altre regole; Magari il sistema 2. 
E in qualche modo gli esseri umani, possono cercare di apprendere il modo in cui l’intelligenza artificiale ha Imparato i dati. Prendendo queste indicazioni, come ovviamente complementari, non sostitutive o alternative ma complementari alle regole del sistema 2 e in qualche modo fanno loro da sistema neurosimbolico.

Questa questa indicazione mi è sembrata molto interessante e promettente. 
Per quelli che sono interessati a questo loop, che io ho detto essere il modo di collegare sia lo iato della Human Trust che lo iato della machine Experience: faccio riferimento ad un editoriale che ho scritto per gli Annals of Translational Medicine. L’ultima frase è questa: è importante investire in cultura, in una cultura interdisciplinare, in maniera tale che si possano parlare medici e ingegneri, informatici ovviamente, ma soprattutto è importante investire nel capitale umano;
cioè non solo nei ponti ma anche nei costruttori di ponti.

Vi ringrazio.

PDF

In evidenza

Prevenzione cardiovascolare: stato dell’arte e futuri sviluppi

Prevenzione cardiovascolare: stato dell’arte e futuri sviluppi

Data: Martedì 27 Luglio

Intervento del Prof. Pasquale Perrone Filardi, professore ordinario di Cardiologia, Direttore della Scuola di Specializzazione in Malattie dell’apparato cardiovascolare dell’Università degli Studi di Napoli Federico II, Presidente SIC (Società Italiana di Cardiologia)

Il ruolo della genetica nella gestione delle aritmie ereditarie

Il ruolo della genetica nella gestione delle aritmie ereditarie

Data: Lunedì 26 Luglio

Intervento della Prof. ssa Silvia Priori, Direttore del Servizio di Cardiologia Molecolare presso Fondazione Salvatore Maugeri Clinica del Lavoro e della Riabilitazione IRCCS Pavia; professore Ordinario di Cardiologia- Dipartimento di Medicina Molecolare – Università degli studi di Pavia