Attualità
Come i Big Data stanno cambiando le scienze sociali
Antropologia, psicologia, sociologia e scienze politiche: da sempre le più umanistiche delle scienze ricorrono alla statistica. Cosa succede, però, se la statistica tradizionale viene sostituita dai Big Data?
Per anni neurologi e psicologi si sono domandati se il cervello delle persone affette da autismo fosse diverso – fisicamente diverso – da quello delle persone “normali”. Per anni hanno svolto studi comparati effettuando risonanze magnetiche cerebrali su campioni di persone affette e non affette da questa patologia, per lo più giungendo alla conclusione che, sì, i cervelli degli autistici sembrano un po’ diversi. L’ultimo studio di questo genere, condotto da alcuni ricercatori californiani su una cinquantina di bambini, è stato pubblicato sulla rivista Brain nel luglio del 2013: stando ai risultati, i ragazzini affetti da autismo presentano «una crescita più rapida della dimensione del cervello». Studi precedenti erano già giunti a conclusioni analoghe.
Circa un anno più tardi, nel novembre del 2014, una singola ricerca condotta dall’università di Ben Gurion, nel deserto del Negev, ha ribaltato tutti gli studi precedenti sulla questione. Dopo avere accumulato un database di oltre mille immagini di risonanze magnetiche cerebrali e dopo averle fatte analizzare da un computer, i ricercatori israeliani sono giunti alla conclusione che non esiste alcuna differenza morfologica tra i cervelli delle persone affette da autismo e quelli di tutti gli altri. Gli studi precedenti non erano necessariamente sbagliati. Piuttosto, erano fuorvianti, perché partivano da campioni troppo piccoli, tra i venti e i cinquanta cervelli “scannerizzati”: in condizioni del genere, ha spiegato Ilan Dinstein, docente di psicologia alla Ben Gurion, «bastava che un soggetto avesse un cervello particolarmente piccolo per sfasare l’intera ricerca».
Nel 2013 la società Penn Schoen Berland ha condotto per conto della rivista Allure un sondaggio volto a indagare il rapporto tra bellezza ed età. La ricerca, condotta a domande dirette su un campione di duecento volontari, ha concluso che gli uomini ritengono che la bellezza femminile raggiunge il suo picco massimo intorno ai 29 anni; mentre le donne trovavano i maschi più attraenti intorno ai 34 anni di età.
Da un lato il riutilizzo e l’analisi su vasta scala – nell’ordine delle migliaia, se non di più, anziché delle decine – di dati raccolti in precedenza. Dall’altro la possibilità di osservare e misurare il comportamento umano senza fare domande dirette.
L’anno successivo Christian Rudder, il matematico co-fondatore del sito di online dating OkCupid, ha pubblicato un volume che conteneva alcune rivelazione sui dati raccolti dal portale sulle preferenze di milioni di utenti del sito, nonché sugli studi condotti dai data scientist della società a partire da esse. In circa dieci anni di operato, e con circa tre milioni e mezzi di utenti attivi, OkCupid s’è fatto un’idea ben precisa dell’età che i suoi iscritti trovano più desiderabile nel sesso opposto. Questo perché chiede loro di votare, in modo spontaneo e assolutamente anonimo, l’avvenenza degli altri utenti. I risultati raccolti dal portale sono molto diversi da quelli ottenuti attraverso il sondaggio di Psb: le femmine sono più attraenti intorno ai 20 anni e, dato forse più interessante, cominciano a perdere molti punti a partire dai 22.
I casi citati finora sono esempi di come i Big Data potrebbero cambiare, e stanno già cominciando a farlo, le scienze sociali, ossia quell’insieme di discipline parzialmente umanistiche, come la psicologia, la sociologia, le scienze politiche e l’antropologia, che pure devono ricorrere anche a dati statistici. I contributi dei Big Data alle scienze sociali possono essere raggruppati in due macro-categorie. Da un lato il riutilizzo e l’analisi su vasta scala – nell’ordine delle migliaia, se non di più, anziché delle decine – di dati raccolti in precedenza. Dall’altro la possibilità di osservare e misurare il comportamento umano senza fare domande dirette, bensì limitandosi ad analizzare le tracce che le persone lasciano in Rete.
Lo studio israeliano sull’autismo rientrava nella prima categoria: non si è trattato di creare nuovi dati, bensì di raccogliere un campione quanto più vasto possibile da ricerche pre-esistenti e farlo analizzare da un computer. Non è un caso isolato.Brian M. D’Onofrio, uno psicologo dell’Università di Bloomington, nell’Indiana, ha rielaborato con l’aiuto dei computer 50 mila dati relativi allo status di salute e alle fedine penali di altrettanti giovani svedesi. Il lavoro di D’Onofrio ha ribaltato decenni di studi precedenti sulla presunte correlazione tra il fumo in gravidanza e una maggiore incidenza della delinquenza giovanile: non esiste alcun rapporto di causa-effetto; le ricerche precedenti erano state condotte su campioni troppo piccoli per stabilire una correlazione a parità di altri fattori.
Invece l’analisi di Christian Rudder, il fondatore di OkCupid, sulle preferenze degli utenti del suo sito appartiene alla seconda categoria: studiare il comportamento umano senza svolgere sondaggi bensì andando a guardare come ci comportiamo in Rete «quando pensiamo che nessuno ci stia guardando». Non a caso Rudder ha intitolato il suo libro – recentemente entrato nella lista dei bestseller del New York Times – Dataclysm: Who We Are When We Think No One’s Looking.
«Stiamo arrivando al punto in cui è possibile raccogliere informazioni comportamentali senza ricorrere a campioni umani»
Il bello delle tracce che lasciamo online, per esempio digitando una frase su un motore di ricerca oppure quando clicchiamo su un banner, è che, essendo convinti di essere da soli davanti alla nostra tastiera, ci comportiamo più spontaneamente. «Si è mai visto qualcuno che digita “beneficenza” su Google per sembrare una persona migliore?», fa notare il matematico. Lo stesso non si può dire dei classici studi condotti a campione, ponendo domande dirette, da psicologi, politologi e antropologi. A domanda diretta, infatti, si tende a rispondere non sempre ciò che pensiamo, bensì quello che pensiamo ci faccia sembrare migliori. È un problema riscontrato anche in condizioni di anonimato, e che nelle scienze sociali viene comunemente chiamato «social desirability bias» o «fattore di desiderabilità sociale». Oltre a permettere di aggirare il problema del social desirability bias, lavorare sui dati lasciati in Rete, rende la ricerca meno dispendiosa in tempo e in denaro. «Stiamo arrivando al punto in cui è possibile raccogliere informazioni comportamentali senza ricorrere a campioni umani», ha spiegato di recente Tanzeem Choudhury, informatico della Cornell University. «Possiamo ottenere informazioni in continuazione senza infastidire le persone con questionari».
Questo non significa, tuttavia, che l’avvento dei Big Data elimini automaticamente tutte le difficoltà che le scienze sociali hanno finora riscontrato nel quantificare il comportamento umano. Piuttosto stanno aiutando a mitigare alcuni aspetti problematici, come il fattore di desiderabilità sociale o la sostenibilità economica degli studi su campioni di vasta scala.
Similmente, questo non significa che i Big Data sostituiranno le scienze sociali, né che antropologi e sociologi saranno rimpiazzati da data scientist. Come sosteneva il politologo di Stanford Justin Grimmer in un recente paper, intitolato “We’re all social scientists now: how Big Data, Machine Learning and Causal Inference Work Together”, «una grande quantità di dati da sola non è in grado di risolvere i problemi della società […] anche se può certamente aiutare a farlo». Proprio mentre i dati diventano sempre più, e sempre più rapidamente processabili, è necessario il lavoro di qualcuno capace di interpretarli nel senso più lato del termine. In altre parole qualcuno di capace non soltanto di osservare una correlazione statistica tra due variabili, ma anche a capire la relazione causale fra di esse: «Affinché i Big Data possano veramente rivoluzionare le nostre vite, dobbiamo riconoscere che siamo tutti scienziati sociali»