
Donata Columbro è giornalista, formatrice e scrittrice di diversi saggi. Si occupa di dati, tecnologia e ingiustizie e, per questo, le abbiamo posto qualche domanda in questa intervista sul rapporto tra intelligenza artificiale e discriminazioni.
D – Una delle offese più comuni che viene fatta alla comunità LGBTQI+ è quella di essere “contronatura”. Si tratta di un campo semantico che viene applicato non solo a questioni di orientamento sessuale e identità di genere, ma anche ad ambiti apparentemente molto lontani, come quello della raccolta dei dati. Infatti, una cosa che mi ha sorpreso del tuo ultimo volume, Quando i dati discriminano, è stato leggere che tu dai avvio a questo saggio su dati e statistica parlando proprio di naturalezza, di come un’opinione molto diffusa sia quella che i dati grezzi siano “naturali”, quindi puri e autorevoli, perché non “contaminati” dal filtro fallace dell’essere umano. Ma è davvero così?
R – Ho voluto cominciare il libro smontando il concetto di “naturale” associato a purezza e autorevolezza, così come si fa con i dati “puri” e “oggettivi”. Non esistono dati in purezza, non elaborati, naturali, appunto. I dati sono sempre costrutti umani e sociali, che dipendono dalle nostre relazioni, dalla nostra storia, dalle tecnologie a nostra disposizione, dai nostri corpi. Prima ancora di raccogliere un dato, qualcuno deve decidere cosa osservare, cosa contare, come classificare. E questa decisione nasce da un interesse, da una prospettiva specifica. Nel “femminismo dei dati”, approccio in cui mi ritrovo, l’idea di oggettività neutra è il God Trick, il “trucco di dio”, di vedere tutto da nessun luogo, mentre ogni visualizzazione, ogni dataset, è una prospettiva parziale che spesso coincide con quella del gruppo dominante. La presunta neutralità è in realtà una posizione di potere che non si dichiara.
D – Negli anni più recenti la nostra vita quotidiana – almeno nella parte di mondo occidentalizzato – è stata stravolta dall’utilizzo massivo dell’intelligenza artificiale. Tuttavia, tra le tante criticità che questo strumento porta con sé – come il problema della sicurezza dei dati che immettiamo, della privacy, della potenziale perdita di posti di lavoro –, ce n’è una, in particolare, che riguarda quello che è il nostro raggio d’azione specifico: l’inclusione. Bias e pregiudizi umani rischiano non solo di essere “ereditati” dall’AI, ma addirittura di venirne amplificati. Nel libro citato poco sopra affermi: “La strada verso l’equità non passa dalla neutralità, ma dalla consapevolezza della posizione che occupiamo nel mondo”. Cosa intendi?
R – Vogliamo essere obiettivi perché cerchiamo di essere equi, giusti. Ma l’illusione della neutralità è in realtà dannosa, perché ci fa credere di poter eliminare i bias semplicemente “lasciando parlare i dati”, come se fossero entità autonome e pure, quando l’intelligenza artificiale eredita e amplifica i pregiudizi umani. Essere consapevoli della propria posizione vuol dire dichiarare da dove parliamo. Chi progetta quell’algoritmo? Con quali valori? Per chi lavora? E inevitabilmente: contro chi? Quali sono i suoi privilegi? L’equità non si ottiene eliminando il punto di vista, cosa impossibile, ma esplicitandolo e mettendolo costantemente in discussione.
D – La maggioranza delle ricerche statistiche accademiche vengono tutt’oggi effettuate su persone che rappresentano il cosiddetto campione “WEIRD” (acronimo che sta per “Western, Educated, Industrialized, Rich, and Democratic”), a cui è doveroso aggiungere anche “bianchi” e “non LGBTQI+”. Appare evidente che, per evitare che tali ricerche siano falsate (se non, addirittura, discriminatorie), bisognerebbe includere persone di altri generi, etnie, ceti sociali, orientamenti vari. Tuttavia, nel tuo libro spieghi anche che non sempre è un vantaggio essere oggetto di raccolta dati. Perché? E qual è il giusto mezzo tra non dare voce a un gruppo e ghettizzarlo (anche) grazie ai dati raccolti?
R – Quando abbiamo deciso che i numeri e i dati sarebbero diventati la guida alle decisioni umane, abbiamo anche iniziato a far rientrare comportamenti e corpi dentro uno standard.
E quindi, da un lato, l’invisibilità nelle statistiche è dannosa perché rende impossibile progettare politiche pubbliche adeguate e far emergere discriminazioni. Dall’altro, essere troppo visibili nei dati può trasformarsi in uno strumento di controllo. Il caso degli algoritmi predittivi lo mostra bene: quando si incrociano variabili come reddito, background migratorio, composizione familiare o livello di istruzione per stimare un “rischio”, non si sta semplicemente descrivendo una realtà, la si sta anticipando e, in parte, producendo, come una profezia che si autoavvera. Le categorie utilizzate riflettono una certa visione del mondo e finiscono per consolidarla. La questione alla fine non è solo avere più dati, ma chiedersi chi li raccoglie, per quale scopo, e con quale relazione con le persone coinvolte. Cito spesso la scienziata politica Deborah Stone che insegna a chiedersi “chi era nella stanza quando sono state progettate le domande di una certa indagine statistica”.
D – Il giusto mezzo richiede autodeterminazione attraverso l’auto-identificazione volontaria, trasparenza, consenso informato, e soprattutto una finalità esplicitamente anti-discriminatoria. I dati devono servire a combattere le disuguaglianze, non a rafforzarle. E devono essere intersezionali, perché limitarsi a un solo asse di discriminazione rischia di creare nuove invisibilità. Negli anni più recenti sono nate organizzazioni che riuniscono data scientist, persone attiviste ed esperte/i di informatica affinché l’intelligenza artificiale e la raccolta dati non discrimini le minoranze. Ci vuoi parlare di questo fenomeno? E in Italia qual è la situazione?
R – Negli Stati Uniti sono nate diverse realtà dalle esperienze delle persone che si identificano come BIPOC, cioè black, indigenous and people of color. Un esempio è Data 4 Black Lives, fondata da Yeshimabeit Milner e Lucas Mason-Brown, che durante la pandemia ha fatto un lavoro straordinario attivando una raccolta collaborativa dal basso con dati disaggregati per razza sulle infezioni e le vittime, diventando una delle principali fonti di informazione sul tema. Da monitorare anche il movimento di idee che viene portato avanti dalle comunità indigene attorno al concetto di sovranità dei dati: “I dati devono parlare di noi, perché altrimenti siamo esclusi da tutto, ma nel modo in cui decidiamo noi”. In Italia la situazione è diversa e direi più indietro, anche se negli ultimi anni si è affermata una nuova ondata di pratiche e organizzazioni che vanno oltre l’idea tradizionale di “correggere un algoritmo” e interrogano invece il progetto stesso delle tecnologie. Penso a Immanence, una società fondata dalla sociologa Diletta Huyskes insieme all’avvocata Luna Bianchi, con l’obiettivo di valutare criticamente gli impatti etici, sociali e discriminatori dell’intelligenza artificiale e delle tecnologie digitali.
D – Qual è il rischio specifico per la popolazione LGBTQI+ di un uso scorretto dei dati?
R – Il primo problema è il gap di dati. Come scrivo spesso, mancano dati non solo sulle persone non bianche in Italia, ma anche sulle persone che si identificano con il genere non binario e le persone trans. Le statistiche nazionali raccolgono dati sul sesso stabilito alla nascita, e solo negli ultimi anni la variabile del genere è presente in alcuni questionari specifici sulle discriminazioni. Questa invisibilità statistica ha conseguenze concrete: è impossibile progettare politiche pubbliche adeguate, garantire tutele sanitarie specifiche, affrontare le discriminazioni nell’istruzione o nel lavoro se non si può nemmeno misurare il fenomeno. L’assenza di dati perpetua gli stereotipi e mantiene nell’ombra intere comunità. Dall’altro lato c’è il rischio della schedatura e del controllo, perché la classificazione dell’identità può trasformarsi in segregazione. Per ultimo, penso alla necessità di superare il binarismo di genere, incorporata nei nostri modelli di raccolta dati e in molti sistemi di AI. Se il modello è addestrato su dati che presuppongono solo maschio/femmina, l’eterosessualità come default, tutto ciò che devia viene trattato come un’anomalia, e di conseguenza isolato e non considerato “valido” ed escluso dall’ambito delle decisioni politiche.
D – Oggi siamo letteralmente sommerse e sommersi da dati, statistiche, numeri, tanto che l’OMS (nel corso della prima ondata della pandemia, a inizio 2020) ha coniato un neologismo per descrivere questo fenomeno: l’infodemia, definita dalla Treccani: “Circolazione di una quantità eccessiva di informazioni, talvolta non vagliate con accuratezza, che rendono difficile orientarsi su un determinato argomento per la difficoltà di individuare fonti affidabili”. Perché l’infodemia è un rischio addirittura per la nostra salute – oltre che per la nostra società – e quali sono gli antidoti?
R – Nelle conclusioni del libro cito una vignetta del New Yorker che ho trovato illuminante: un impiegato risponde al suo capo dicendo: “Ho qualcosa di meglio di una risposta, ho un’enorme quantità di dati!”. Ecco, qui è dove dobbiamo suonare la sirena d’allarme. I dati sono come le parole, posso usarli per mentire, per convincere, per raccontare storie veritiere, ma c’è un problema in più. Il rigore dei dati, almeno così come è sempre stato rappresentato, rischia di annullare il nostro pensiero critico e ci fa accettare quello che i nostri bias confermano. Ma i dati non sono la risposta (abbiamo per anni alimentato il mito dei “big data”), sono un punto di partenza. E quindi l’unico antidoto è possibile osservare dati senza che la nostra personale interpretazione, i nostri sentimenti, interferiscano con il loro valore? Non proprio. Tim Harford, economista, analizza dieci modi per aiutarci a leggere e capire i dati nel modo più corretto, e suggerisce di non mettere da parte le proprie emozioni, ma riconoscerle. Persino uno dei fenomeni che presenta più studi e dati, come il cambiamento climatico, è vissuto in modo polarizzante quando non riescono a mettere da parte le proprie credenze politiche. Allora possiamo usare la “mindfulness dei dati”, la factfulness dello statistico e medico svedese Hans Rosling e iniziare a guardare con “distacco” e equanimità i numeri e i grafici che scorrono nei nostri feed: “cosa sto guardando? chi ha prodotto questi dati? con quale metodologia? e quali obiettivi? cosa ho imparato di nuovo e cosa invece già sapevo prima di guardarli? ho sfidato almeno una delle convinzioni che possedevo sul tema?” È un esercizio da cui si esce più consapevoli, questo è certo.