Modulo 2 · Il mito della neutralità, Pensiero critico e narrazioni sull'AI, Innovation Agency

Il problema

«I dati parlano da soli», davvero?

Prerequisito: Modulo 1

Questo modulo presuppone che tu abbia compreso che l'AI non è un soggetto con intenzioni proprie. Se non l'hai ancora fatto, ti consigliamo di completare prima il Modulo 1: smontare l'antropomorfizzazione linguistica è il prerequisito per analizzare criticamente la presunta neutralità dei dati.

«L'algoritmo è oggettivo perché si basa sui dati.» «La macchina non ha pregiudizi: decide in base alle evidenze.» «I numeri non mentono.» Frasi come queste circolano nel dibattito pubblico sull'AI e su molti altri temi tecnologici. Sembrano rassicuranti: se la decisione è presa da un sistema matematico, allora è giusta, imparziale, scientifica.

Il problema non è che la matematica sia sbagliata. Il problema è che i dati su cui si basa la matematica non sono mai «puri»: sono prodotti da esseri umani, in contesti storici specifici, con pregiudizi, disuguaglianze e scelte che lasciano tracce. Quando un testo presenta i dati come neutri, sta compiendo un'operazione retorica precisa: spostare l'attenzione dalle scelte umane che hanno prodotto quei dati alla presunta oggettività del risultato algoritmico.

Nel 2018, Amazon ha dovuto abbandonare un tool di selezione del personale basato su AI perché penalizzava sistematicamente i curriculum che contenevano la parola «donna». Il sistema non era «di parte» per progetto: era stato addestrato su dieci anni di curriculum assunti, in un settore storicamente dominato dagli uomini. L'algoritmo aveva semplicemente imparato a replicare i pattern del passato. I dati «parlavano», ma raccontavano una storia distorta.

Ecco il punto cruciale: la neutralità algoritmica è un mito non perché la matematica sia fallace, ma perché i dati sono sempre il prodotto di scelte umane. Imparare a riconoscere quando un testo presenta i dati come oggettivi, senza considerare il contesto storico e il lavoro umano che li ha prodotti, è il secondo passo per sviluppare una competenza critica stabile, trasferibile a molti altri ambiti del discorso pubblico, non solo all'AI.

Quello che si dice spesso «L'algoritmo è neutro: decide in base ai dati, senza pregiudizi.»

Presenta il risultato algoritmico come oggettivo perché derivato da dati «puri», ignorando che i dati stessi sono il prodotto di scelte umane, contesti storici e disuguaglianze strutturali.

Quello che dice la ricerca «I sistemi algoritmici ereditano e talvolta amplificano i bias presenti nei dati di addestramento, che riflettono disuguaglianze storiche e sociali.»

La letteratura su fairness algoritmica mostra che l'oggettività matematica non garantisce equità sociale: un modello può essere tecnicamente corretto e socialmente discriminatorio.

La domanda giusta Chi ha prodotto questi dati, in quale contesto, e con quali criteri di selezione? E chi ha deciso che quei dati fossero la base «oggettiva» per una decisione?

Prima di continuare

Pensa a un contesto in cui una decisione importante viene presa «in base ai dati»: assunzioni, prestiti bancari, valutazioni scolastiche, diagnosi mediche. Ti è mai capitato di chiederti chi ha prodotto quei dati e con quali criteri? Se sì, cosa hai scoperto? Se no, perché pensi che la domanda non ti sia venuta in mente?

Tre categorie di analisi

Presunzione di oggettività, bias storico, lavoro fantasma

Quando leggiamo un testo che parla di AI e dati, possiamo incontrare tre tipi distinti di affermazione. Riconoscerli è l'obiettivo operativo di questo modulo. Ciascuno ha segnali linguistici ricorrenti e implica un diverso livello di consapevolezza critica.

1 La presunzione di oggettività

Il testo assume che il risultato della macchina sia privo di bias umani perché «basato sui dati» o «matematico». Questa affermazione ignora che i dati non sono mai neutri: sono raccolti, selezionati, etichettati e interpretati da esseri umani in contesti specifici.

Segnali da cercare: aggettivi come «oggettivo», «neutro», «imparziale» applicati all'algoritmo; frasi come «i dati parlano da soli», «la macchina non ha pregiudizi», «è solo matematica»; assenza di riferimenti al contesto di produzione dei dati.

2 Il bias storico/strutturale

Il riconoscimento che la macchina è addestrata su dati umani pregressi che contengono già disuguaglianze, pregiudizi o distorsioni sistemiche. Questa categoria non nega il funzionamento tecnico del sistema, ma ne contestualizza i limiti sociali.

Segnali da cercare: riferimenti a disuguaglianze storiche («in un settore storicamente dominato da...»), a bias nei dataset («i dati riflettono pregiudizi preesistenti»), o a meccanismi di amplificazione («l'algoritmo replica e talvolta intensifica...»).

3 Il lavoro fantasma

L'omissione, o l'esplicitazione, delle migliaia di esseri umani che filtrano, etichettano, correggono e categorizzano i dati per addestrare la macchina. Questo lavoro è spesso invisibile nel discorso pubblico, ma è essenziale per il funzionamento del sistema.

Segnali da cercare: menzione di «annotatori», «etichettatori», «revisori umani», «lavoratori della piattaforma»; descrizioni del processo di preparazione dei dati; critiche all'invisibilizzazione del contributo umano. Quando questo lavoro è assente dal racconto, è un segnale di distorsione.

Perché distinguerli cambia tutto

Le tre categorie portano a conclusioni pratiche molto diverse. Se crediamo che i dati siano oggettivi, attribuiamo all'algoritmo una legittimità che non ha. Se riconosciamo i bias storici, possiamo valutare criticamente quali disuguaglianze il sistema rischia di replicare. Se rendiamo visibile il lavoro fantasma, possiamo attribuire correttamente le responsabilità e valutare le condizioni di chi produce i dati. Un testo può mescolare i tre registri, o usarne uno solo. Riconoscere quale è in atto in ogni passaggio è il lavoro critico che questo modulo ti insegna a fare.

Esempi pratici

Le tre categorie all'opera, con testi reali

I quattro esempi che seguono mostrano le tre categorie in frasi simili a quelle che trovi davvero in articoli, libri e dichiarazioni. Per ognuno è indicata la categoria e viene spiegato esattamente dove sta il problema, o perché invece funziona bene. Leggili nell'ordine prima di passare all'esercizio.

Esempio 1, Presunzione di oggettività

Presunzione di oggettività

«Il sistema di valutazione algoritmico è imparziale perché si basa esclusivamente sui dati: non ha opinioni, non ha pregiudizi, decide in base alle evidenze.»

Questa frase presenta l'algoritmo come neutro perché «basato sui dati», ma non si chiede chi ha prodotto quei dati, con quali criteri, in quale contesto storico. È un'affermazione che sposta l'attenzione dalla provenienza dei dati alla presunta oggettività del risultato. La parola-spia è «esclusivamente»: suggerisce che i dati siano autosufficienti, quando in realtà sono sempre il prodotto di scelte umane.

Esempio 2, Bias storico/strutturale

Bias storico/strutturale

«Il modello di previsione della recidiva è stato addestrato su dati giudiziari statunitensi degli ultimi trent'anni, un periodo in cui le minoranze etniche sono state sistematicamente sovrarappresentate nelle condanne. Di conseguenza, il sistema rischia di replicare, e talvolta amplificare, queste disuguaglianze storiche.»

Questa è una descrizione nel registro del bias storico. Non nega il funzionamento tecnico del sistema, ma ne contestualizza i limiti sociali: i dati riflettono disuguaglianze preesistenti, e l'algoritmo le eredita. I segnali sono chiari: riferimento al contesto storico («ultimi trent'anni»), riconoscimento del meccanismo di replicazione («rischia di replicare»), distinzione tra funzionamento tecnico e impatto sociale. È il registro più critico e informato.

Esempio 3, Lavoro fantasma (omesso)

Lavoro fantasma

«L'AI ha imparato da sola a riconoscere le immagini: basta mostrarle milioni di foto e il sistema estrae automaticamente i pattern rilevanti.»

Questa frase omette completamente il lavoro umano necessario per preparare i dati: qualcuno deve selezionare le immagini, etichettarle, correggere errori, definire le categorie. Il verbo «ha imparato da sola» attribuisce al sistema un'autonomia che non possiede. Una descrizione più accurata sarebbe: «Il modello è stato addestrato su un dataset di immagini precedentemente etichettate da annotatori umani, secondo criteri definiti dai progettisti». Meno narrativa, ma più trasparente.

Esempio 4, Lavoro fantasma (esplicitato)

Lavoro fantasma

«Dietro ogni modello di riconoscimento delle immagini ci sono migliaia di annotatori, spesso in paesi a basso reddito, che etichettano manualmente milioni di foto secondo linee guida definite da aziende tecnologiche. Questo lavoro è essenziale per l'addestramento, ma raramente viene menzionato nelle narrazioni pubbliche sull'AI.»

Questo è un esempio di esplicitazione del lavoro fantasma. La frase rende visibile il contributo umano nascosto, ne descrive le condizioni («spesso in paesi a basso reddito») e ne critica l'invisibilizzazione («raramente viene menzionato»). Non nega il funzionamento tecnico del sistema, ma ne contestualizza la produzione materiale. È il registro più eticamente informato.

Parti neutre

Nel testo dell'esercizio ci sono anche passaggi descrittivi e di transizione che non appartengono a nessuna delle tre categorie. Riconoscerli è parte del lavoro: non ogni frase che menziona i dati o gli algoritmi è un'affermazione classificabile. Descrizioni tecniche neutre, definizioni, o posizioni riportate senza essere sostenute dall'autore del testo non richiedono un'etichetta.

Le categorie

I tre criteri da usare nell'esercizio

Prima di passare all'esercizio, rileggi le tre categorie in versione operativa, come criteri da applicare durante la lettura. Ogni parte evidenziata nel testo dell'esercizio appartiene in modo netto a una sola di esse.

La presunzione di oggettività Il testo assume che il risultato della macchina sia privo di bias umani perché «basato sui dati» o «matematico».

Segnali da cercare: aggettivi come «oggettivo», «neutro», «imparziale» applicati all'algoritmo; frasi come «i dati parlano da soli», «la macchina non ha pregiudizi», «è solo matematica»; assenza di riferimenti al contesto di produzione dei dati. Attenzione: non tutti i riferimenti alla matematica sono distorsivi, ma quando la matematica viene usata per legittimare un risultato senza considerare la provenienza dei dati, siamo nel campo della presunzione di oggettività.

Il bias storico/strutturale Il riconoscimento che la macchina è addestrata su dati umani pregressi che contengono già disuguaglianze, pregiudizi o distorsioni sistemiche.

Segnali da cercare: riferimenti a disuguaglianze storiche («in un settore storicamente dominato da...»), a bias nei dataset («i dati riflettono pregiudizi preesistenti»), o a meccanismi di amplificazione («l'algoritmo replica e talvolta intensifica...»). Questa categoria non nega il funzionamento tecnico del sistema, ma ne contestualizza i limiti sociali.

Il lavoro fantasma L'omissione, o l'esplicitazione, delle migliaia di esseri umani che filtrano, etichettano, correggono e categorizzano i dati per addestrare la macchina.

Segnali da cercare: menzione di «annotatori», «etichettatori», «revisori umani», «lavoratori della piattaforma»; descrizioni del processo di preparazione dei dati; critiche all'invisibilizzazione del contributo umano. Quando questo lavoro è assente dal racconto, è un segnale di distorsione; quando è esplicitato, è un segnale di trasparenza critica.

Differenza dalle altre due: non riguarda l'accuratezza del risultato algoritmico, ma la visibilità del processo umano che lo rende possibile.

Parti neutre

Prima di passare all'esercizio

Qual è la differenza tra dire «l'algoritmo è imparziale perché basato sui dati» e «l'algoritmo eredita i bias presenti nei dati di addestramento»? Prova a spiegare con un esempio concreto: in quali contesti la presunzione di oggettività ti sembra più rischiosa?

L'esercizio

Analizza il testo: usa i pulsanti per evidenziare

Leggi il testo seguente per intero, senza usare ancora i pulsanti. Poi rileggi una seconda volta attivando un pulsante alla volta. Il testo analizza il rapporto tra dati, oggettività e lavoro umano nei sistemi di AI, distinguendo tra narrazioni ingenue e descrizioni critiche.

Ogni parte evidenziata appartiene in modo netto a una sola categoria. Non ci sono casi volutamente ambigui.

Testo argomentativo, Interattivo

Presunzione di oggettività

Bias storico/strutturale

Lavoro fantasma

Neutro (non evidenziato)

Nel dibattito pubblico sui sistemi algoritmici, l'idea che i dati siano «oggettivi» e «neutrali» è ancora molto diffusa. Questa convinzione orienta la fiducia nelle decisioni automatizzate, ma nasconde meccanismi cruciali di produzione e selezione delle informazioni.

Molti articoli presentano gli algoritmi di selezione del personale come imparziali perché «basati esclusivamente sui dati»: non hanno pregiudizi, non hanno opinioni, decidono in base alle evidenze. Questa affermazione ignora che i dati su cui si basa il sistema sono il prodotto di scelte umane: chi ha definito i criteri di valutazione? Quali curriculum sono stati inclusi nel dataset? In quale contesto storico sono state prese le decisioni passate?

I modelli di previsione della recidiva giudiziaria, ad esempio, sono spesso addestrati su dati storici che riflettono disuguaglianze sistemiche: in molti contesti, le minoranze etniche sono state sovrarappresentate nelle condanne non per una maggiore propensione al reato, ma per bias nelle pratiche di polizia e nelle sentenze. Di conseguenza, l'algoritmo rischia di replicare, e talvolta amplificare, queste distorsioni, presentandole come «evidenze oggettive».

Un altro aspetto cruciale è il lavoro umano necessario per preparare i dati.

Dietro ogni modello di riconoscimento delle immagini o di elaborazione del linguaggio ci sono migliaia di annotatori, spesso in paesi a basso reddito, che etichettano manualmente milioni di esempi secondo linee guida definite da aziende tecnologiche. Questo lavoro è essenziale per l'addestramento, ma raramente viene menzionato nelle narrazioni pubbliche sull'AI, che tendono a presentare il sistema come autonomo e auto-apprendente.

Alcune narrazioni suggeriscono che «la matematica non mente» e che quindi un risultato algoritmico sia per definizione più affidabile di una decisione umana. Questa affermazione confonde accuratezza tecnica con equità sociale: un modello può essere matematicamente corretto e socialmente discriminatorio, se i dati su cui si basa riflettono pregiudizi preesistenti.

Studi recenti mostrano che i dataset linguistici su larga scala contengono rappresentazioni distorte di genere, etnia e status socioeconomico, perché riflettono i bias presenti nei testi da cui sono estratti. Di conseguenza, i modelli addestrati su questi dati tendono a riprodurre stereotipi, anche quando non sono esplicitamente progettati per farlo.

La trasparenza sul processo di preparazione dei dati, chi etichetta, con quali criteri, in quali condizioni, non è solo una questione etica: è un prerequisito per valutare criticamente la legittimità delle decisioni algoritmiche. Quando questo lavoro è invisibile, è più difficile attribuire correttamente le responsabilità e identificare i punti di intervento per correggere eventuali distorsioni.

Nel complesso, imparare a distinguere tra presunzione di oggettività, riconoscimento dei bias storici e visibilità del lavoro umano è il secondo passo per sviluppare una competenza critica stabile, trasferibile a molti altri ambiti del discorso pubblico, non solo all'AI.

Come usare i pulsanti

Attiva un pulsante alla volta. Leggi tutto il testo con quel filtro attivo prima di passare al successivo. Le parti non evidenziate in nessuna modalità sono neutre: descrizioni, transizioni, o posizioni riportate senza essere sostenute dall'autore del testo.

Riflessione

Cosa hai visto, e cosa cambia adesso

Hai lavorato su un testo costruito per essere analizzato. Le domande che seguono non hanno una risposta esatta: chiedono di ragionare sui meccanismi, non di classificare correttamente ogni frase.

Nel testo hai trovato due esempi di presunzione di oggettività: uno descrive algoritmi di selezione «imparziali perché basati sui dati», l'altro afferma che «la matematica non mente». Sono due facce della stessa distorsione, o c'è una differenza importante tra attribuire neutralità ai dati e attribuire infallibilità alla matematica? Come cambia la tua reazione a seconda della formulazione?

Quale delle tre categorie ti è risultata più difficile da riconoscere nel testo? Era difficile per la forma delle frasi, per il contenuto, o perché somigliava a un'altra categoria? Prova a capire da dove veniva l'esitazione, e se quella stessa esitazione potrebbe capitarti leggendo un articolo normale, fuori da questo contesto didattico.

Quando un testo esplicita il «lavoro fantasma» (come nell'Esempio 4 e nel testo dell'esercizio), ti sembra che questo cambi il modo in cui valuti la legittimità di una decisione algoritmica? Perché rendere visibile il contributo umano dovrebbe, o non dovrebbe, influenzare la tua fiducia nel sistema?

La tua osservazione finale

Pensa a un articolo, un post, un video o una conversazione che hai incontrato di recente su un tema in cui si prendono decisioni «in base ai dati»: assunzioni, prestiti, valutazioni, diagnosi. Riesci a identificare almeno un passaggio in cui era presente una delle tre categorie che hai appena studiato? Descrivi quel passaggio e prova a dire quale categoria riconosci adesso.

La neutralità algoritmica non esiste. I dati e la loro elaborazione sono sempre il prodotto di scelte umane. Oltre a chiederci «l'algoritmo è oggettivo?», domandiamoci «chi ha prodotto questi dati, con quali criteri, e quali disuguaglianze potrebbero essere replicate?».