mercoledì 30 dicembre 2020

Alessandro Vespignani: L'algoritmo e l'oracolo

 Accumulo enorme quantità di informazioni (i big data) non equivale a nuova conoscenza: gli algoritmi conferiscono potere predittivo ai big data.

Algoritmi sono una serie di istruzioni precise ed espressioni matematiche che usiamo per trovare associazioni, tendenze, e così via.
Molti algoritmi utilizzano l'apprendimento automatico (machine learning) e sfruttano la statistica: nei dati cercano similarità e ripetizioni per tentare di anticipare comportamenti futuri.
Tuttavia nei sistemi complessi identificare andamenti ripetuti, cicli o associazioni temporali è molto difficile.
Siamo andati allora oltre i modelli statistici costruendo algoritmi che simulano gli individui e le loro interazioni.

Abbiamo imparato a creare mondi sintetici che statisticamente replicano quelli reali grazie a database socioeconomici che "scattano un foto" alla popolazione globale con una risoluzione che arriva al km quadrato: posizione fisica degli individui, caratteristica delle loro famiglie, tipo di lavoro, probabilità di fare viaggi internazionali, ecc.
Servono per simulare diversi scenari (epidemia, terremoto, attacco nucleare, alluvione) e studiare cosa potrebbe succedere: strumento di gestione della crisi utile per approntare politiche decisionali.

Chi possiede questi algoritmi e dispone dei dati per utilizzarli ha in effetti un grande potere, che può arrivare a "definire" il futuro (es. Cambridge Analytica)
Spesso siamo intimoriti pensando a questi moderni "oracoli" (che si fanno pagare per il proprio lavoro svolto) e non cerchiamo di capire come funzionino: ma li usiamo continuamente, ed i loro responsi contribuiscono a dirigere il nostro futuro in una direzione piuttosto che in un'altra.

- previsione tempo
- navigatore
- suggeritore di musica selezionata secondo i miei gusti
- suggeritore di libri selezionati secondo i miei gusti
- rassegna stampa realizzata assemblando notizie selezionate secondo i miei gusti
- previsione epidemie influenzali e quindi decisioni se sottopormi o meno a vaccino
- predizioni elettorali che potrebbero influenzare la mia scelta
- ricerche su google bing etc che selezionano per primi gli argomenti secondo i miei gusti
- offerte dagli istituti di credito (mutui o semplicemente tassi di interesse personalizzati) basate sul mio profilo suggerito dagli algoritmi
- frequentazione socials che mi forniscono una selezione degli annunci secondo i miei gusti (ed in base ai likes profilano le mie preferenze)
- controllo orari mezzi pubblici in tempo reale e suggerimenti dalla rete
- carta fedeltà ai supermercati profila le mie preferenze
- netflix o amazon prime suggeriscono le mie preferenze secondo i miei gusti

1) le previsioni negli anni 90
La fisica, l'astronomia e le scienze naturali sono nate dalla raccolta di dati e dalla loro osservazione alla ricerca di regolarità.
La sola raccolta di informazioni sul passato permetteva di proporre previsioni sul futuro basate sull'ipotesi di una ricorsività: se osservando il passato riscontro che ogni volta un astro si trovi in una specifica posizione nel cielo dopo 30 giorni ne raggiunga un'altra, deduco si tratti di una ciclicità che mi permette di fare previsioni sul futuro.
Questo sistema di previsione basato sui soli dati accumulati spesso ha fallito: offriva una spiegazione all'ipotesi geocentrica che ha retto per quasi 2000 anni, ma questa non era l'ipotesi corretta.
Con Newton sono state individuate leggi fisiche che regolano il moto dei pianeti e le loro interazioni: si passa da un modello empirico ad un modello meccanicistico che usa una costruzione algoritmica (insieme di equazioni) per prevedere il futuro.
Queste leggi possono applicarsi ad ogni cosa, anche agli atomi che costituiscono l'atmosfera: sapendo posizione, velocità, massa e carica elettrica (condizioni iniziali in un dato punto) gli algoritmi ci forniscono precise soluzioni circa il loro stato in un punto del futuro.
Nasce la meterologia.
Tuttavia impossibile ricavare esattamente le condizioni iniziali (anche per il principio di indeterminazione di Heildenberg) e piccolissime diversità tra due sistemi dopo qualche tempo portano a comportamenti completamente diversi: teoria del caos.
Soluzione: "previsioni probabilistiche"
Si parte da un modello costruito con le osservazioni in un tempo preciso (condizioni iniziali); sappiamo che possono esserci piccole differenze con quelle reali, per cui affianchiamo al nostro modello parecchi altri modelli all'interno dei quali perturberemo un pochino le condizioni iniziali, ottenendo così un'insieme di previsioni, combinandole poi statisticamente così da ottenere la stima delle probabilità dell'eventi meterologici.
Man mano che arrivano nuovi dati selezioniamo quei modelli che "hanno indovinato" gli istanti precedenti quello che ci interessa, e la previsione diventa più precisa.

2) la fisica dei sistemi sociali: il comportamento umano ridotto a formule matematiche.
Mandelbrot, la geometria frattale (la confutazione del "saggiatore" di Galilei), e la (ri)scoperta che il tutto è maggiore delle parti.  E' stato uno dei padri della scienza dei sistemi complessi, scienza che si occupa di capire come un gran numero di elementi in interazione generino i comportamenti collettivi dell'intero sistema, e come il sistema interagisca con il suo ambiente.
Il cervello con l' "emergenza" della coscienza ne è esempio.
La scienza della complessità crea le basi matematiche per comprendere i fenomeni sociali abbandonando l'interpretazione legata alla "grandezza" o all' "eccezionalità": i comportamenti collettivi possono esser descritti in modo matematico, dunque è possibile fare previsioni per il futuro.

La fisica statistica riesce a prevedere il comportamento di fluidi i cui componenti si muovono in modo caotico.
Ad esempio come spiegare il volo ordinato di uno stormo di uccelli?
Nel 1987 un grafico riesce a simularlo per il film "il ritorno di Batman" con un modello chiamato BOIDS (uccelli in newyorkese).
Ogni "uccello" segue 3 regole:
- "di separazione" rispetto distanza minima dai compagni
- "di allineamento" rispetto andatura dei vicini
- "di coesione" rispetto distanza massima dai compagni
Il modello produce effetti diversi a seconda dei parametri scelti, fornendo aspetto caotico o ordinato, ed emergono comportamenti imprevisti come la separazione in due gruppi per aggirare un ostacolo e la riconnessione in un unico stormo.
Quindi per dar luogo a complesse dinamiche non è necessario che tutti comunichino con tutti.
E' un comportamento emergente.
Nel 1995 Tamas Vicsek sviluppò un modello matematico che dimostrava come i movimenti collettivi potessero esser descritti come le transizioni di fase della materia: al posto della temperatura fisica sostituì il "rumore" (probabilità che gli individui dello sciame processino in modo erroneo l'informazione sui propri vicini) ed aprì le porte alla "fisica dei pedoni" (le folle nei centri commerciali ad esempio)
Il modello di Dirk Helbing parte dalle seguenti due regole del tutto indipendenti dalla psicologia degli individui:
- ogni componente ha una sua velocità di marcia preferita ed una sua meta.
- ognuno tende a mantenere entrambe a meno che non sia costretto a rallentare o deviare per evitare collisioni
Questo modello tende a produrre movimenti di gruppo realistici, con la formazione spontanea di corsie di marcia in senso opposto ma ben allineate (che fa ipotizzare l'esistenza di un'intelligenza collettiva, che invece manca).
Emersione spontanea di un comportamento collettivo senza coordinazione centralizzata.
E' servito a dimostrare che i movimenti dei pedoni in presenza di un restringimento (una porta nel caso di una fuga da un teatro) sono identifici ai flussi all'interno di una bottiglia che si svuota (meglio un movimento "laminare", minor velocità del flusso per evitare turbolenze che inducono il caos).

Negli anni 70 ed 80 nelle città americane si verificò il fenomeno della ghettizzazione: una fuga dei bianchi dai centri.
"Omofilia", tendenza degli individui ad associarsi e legarsi ad individui simili a sé.
Il matematico Thomas Schelling  formulò un semplice modello con due soli tipi di persone: bianco e nero disposti alternativamente lungo una linea.
Introduciamo 2 regole:
- ad ognuno piace avere una percentuale F di persone del suo stesso tipo nello spazio di 4 posti a dx e 4 a sx,
- se la percentuale di individui simili è <F allora la persona scalerà fino a trovarsi in tale condizione.
Non c'è naturalmente coordinazione tra gli individui, tuttavia con F=50% (mezzi neri e mezzi bianchi) già otteniamo una polarizzazione che divide in 3 gruppi   BBBBBNNNNNNNNNNBBBBB
Lo stesso vale se consideriamo una superficie bidimensionale: questa tendenza si riscontra fino ad un valore di F=33,3%: l'indivisuo si accontenterebbe di vivere in un quartiere con soltanto 1/3 di persone del suo colore, ciò nonostante la tendenza al verificarsi di una segregazione prevale.
Mette in crisi la credenza che si possano prevedere comportamenti sociali con modelli lineari: il comportamento dei singoli non è sufficiente per estrapolare quello collettivo.

Questi modelli non erano però realistici (li si chiamava "modelli giocattolo").
Watts e Strogatz nel 1998 svilupparono il modello "small world", che spiegava i famosi "sei gradi di separazione": ogni punto della rete era connesso con altri due , e tutti erano connessi con tutti attraverso una catena di 6 conoscenti reciproci.

Nel 1999 Barabasi e Albert proposero un modello dinamico di rete dove veniva introdotto un aspetto cognitivo nella scelta delle connessioni basato su due assunti:
- le reti sono in genere oggetti dinamici in continua crescita, dunque i nuovi nodi devono decidere a chi connettersi.
- in genere si preferisce connettersi a chi ha già più connessioni (HUB); poichè non è sempre possibile connettersi a chi si vuole, viene definita una regola che stabilisce che la probabilità di stabilire una connessione con un elemento della rete è proporzionale al numero di connessioni di quel nodo.
Facendo evolvere il modello si scoprì che :
- alcuni nodi assumevano spontaneamente il ruolo di HUB
- il numero di connessioni per individuo è distribuito con la legge di Pareto (che dice che nelle società capitalistiche meno del 20% della popolazione possiede più dell'80% della ricchezza). E' una misura del potere di interazione-comunicazione degli individui.
Si apre così la "scienza delle reti".

Teoria delle reti e scienza della complessità sono alla base dello sviluppo della scienza delle predizioni.

3) la rivoluzione digitale: big data e IA permettono il passaggio dai modelli giocattolo ai modelli predittivi misurando milioni di individui studiando le loro preferenze e le relazionei attraverso le reti sociali.
La "datificazione": nel 2007 il 94% delle informazioni sono su supporto digitale.
I dati digitali sono disponibili conservabili analizzabili 
Consideriamo le piattaforme come dei diari privati quando invece sono depositi aperti al pubblico.
I dati sono disponibili in tempo reale a chi sia interessato a studiarli: "the digital data stream".

Hedonometer (Danforth e Dodds): un indice che monitora quasi in tempo reale lo stato d'animo della società basato sull'analisi del 10% dei contenuti pubblicati giornalmente su twitter (viene assegnato uno score ad ogni parola)pari a 100GB (cioè 10^11 byte)
FB 500 terabyte (50^14 byte) al giorno
Cern produce petabyte di dati in pochi minuti (10^15 byte)
radiotelescopio SKA un exabyte (10^18 byte) al giorno

Non è la dimensione che conta per il valore  big data ma la novità rispetto alle info disponibili in precedenza.

Magazzini Target: Andrew Pole studia le abitudini dei consumi delle donne incinte nei diversi periodi della gravidanza e crea un algoritmo che suggerisce offerte personalizzate ai clienti (pubblicità mirate)
Così un padre scopre che la figlia adolescente è incinta perchè riceve proposte di prodotti premaman.
Le carte fedeltà sono l'elemento fondamentale per la "consumer analytics": in cambio di uno sconto il venditore ottiene importanti info sulle abitudini di acquisto del consumatore.
Viene formato un "market basket" personalizzato per ogni cliente che permette agli algoritmi di predire i nostri bisogni e stimolarli (ad es con un piccolo sconto).
I giganti dei servizi digitali usano le ns ricerche su google per profilarci: i profili sono dinamici, si aggiornano in continuazione.

GFT (google flu trends) nel 2009 voleva fornire una previsione per il futuro sull'evoluzione dell'epidemia di influenza basandosi sulle ricerche effettuate sul motore con oggetto termini inerenti l'influenza.
Primo problema: isolare le ricerche che hanno rilevanza epidemiologica.
Secondo: il numero delle ricerche non è equivalente al numero dei casi generati dalla malattia (un algoritmo potrebbe guardare al passato e trovare una relazione tra le serie temporali FluView dei CDC e le ricerche su google)
Il modello sembrò anticipare di una o due settimane i dati del bollettino FluView.

Il direttore di Wired, Chris Anderson, scrisse:"la fine della teoria: il diluvio di dati rende il metodo scientifico obsoleto")
Google aveva cambiato il modo di fare pubblicità, ma era possibile che cambiasse anche quello di fare scienza.
Dai dati ricaviamo le correlazioni, che sono quello di cui c'è bisogno per prevedere.
Metodo classico: la comprensione dei meccanismi che causano ciò che osserviamo nel mondo reale, massima attenzione a non confondere correlazione con causalità.

IA è un concetto molto ampio che si riferisce all'uso di computers per IMITARE le funzioni cognitive degli esseri umani in molti campi (visione artificiale, robotica, games, veicoli autonomi).
Sono algoritmi privi di consapevolezza che usano la matematica statistica per esprimere in formule la complessità dell'essere umano.
Nata nel 1950 solo dal 2000 dispone di macchine con la potenza necessaria.

Machine learning: apprendimento automatico. L'obiettivo è realizzare un algoritmo che impari da solo a identificare relazioni precise nei dati osservati, senza avere regole e modelli espliciti preprogrammati (bottom up).
ci sono 3 categorie:

- supervised learning: l'algoritmo formula previsioni sui dati e viene corretto fino a quando il margine d'errore è accettabile.  X= variabili di input, Y=variabili di output, algoritmo serve per derivare la funzione che dall'input cotruisce l'output.
GFT: metodi di regressione in cui insegniamo al PC che le due variabili Y e X sono legate da una relazione matematica data la quale se conosciamo X possiamo ricavare Y.  Con molti dati storici l'algoritmo regressivo prova le diverse forme funzionali e decide quella che minimizza il margine d'errore nella relazione tra i dati storici. Dopo di che inizia a prevedere Y dato X adesso.
LIMITE: la relazione verificatasi in passato deve verificarsi anche in futuro.
Va bene per maree, pianeti; per le epidemie ok a patto che i dati utilizzati non siano troppo vecchi (nel frattempo scoperta di nuove medicine o trattamenti che invalidano o modificano la relazione tra X e Y).

- unsupervised: sono gli algoritmi a dover scoprire la struttura che lega i dati
Raggruppare i clienti in base al comportamento di acquisto. Si usa il "clustering" cioè trovare sottogruppi all'interno di un set di dati (es. Target che abbiamo visto).
Abbiamo un gruppo di dati su persone che vogliamo raggruppare per età, sesso ecc ma non abbiamo conoscenze precedenti sulle persone da utilizzare come set di addestramento.

- reinforced: un algoritmo con rinforzo impara per tentativi ed errori. Prova tanti schemi che vengono mantenuti o scartati a seconda che i risultati siano corretti o sbagliati. Trova lo schema che minimizza il numero di errori.
(alphago di google).

Per ognuna delle metodologie descritte possono esser sviluppati algoritmi diversi nel funzionamento.
Alcuni minimizzano delle funzioni matematiche, altri creano alberi decisionali, altri raggruppano i dati secondo caratteristiche comuni.
"no free luch theorem": non esiste un unico algoritmo migliore degli altri, si sceglie in base alle necessità.

Esiste però una classe che oggi stà prevalendo:
Neural network che simula un insieme di neuroni stimolati da un dato in entrata producono un dato in uscita.
L'idea è degli anni 50 quando furono sviluppati i concetti e gli algoritmi del "percettrone", modello semplificato di un semplice neurone, che in base a una serie di stimoli è in grado di decidere se un input rappresentato da un insieme di numeri appartenga o meno ad alcune classi specifiche.
Poi sono state sviluppate reti neurali artificiali che mettono in comunicazione strati di neuroni (i nodi della rete).
Nel 2000 computer più potenti che usano reti neurali non più grandi di quelle di prima ma che includono un numero molto più grande di livelli (deep learning)
Ogni livello seleziona una caratteristica specifica da apprendere, così la macchina può trovare ed amplificare anche i segnali più piccoli.
i segnali passano da un nodo all'altro lungo connessioni e collegamento analoghi alle giunzioni sinaptiche tra neuroni.
Imparare è una questione di pesi che amplificano o smorzano i segnali trasportati da ogni connessione.
Riconoscimento delle immagini: primo strato i nodi corrispondono ai pixels; attivati questi nodi propagano i livelli di attivazione attraverso connessioni che ad altri nodi del livello successivo che vengono attivati o meno a seconda della combinazione dei segnali in entrata.
Il processo continua fino a che i segnali raggiungono il livello di output  dove l'attivazione o meno dei nodi fornisce una risposta riguardo l'immagine.
Se sbagliata un algorimo "backpropagation" ripete il processo regolando le intensità per ottenere un risultato migliore.
Vogliamo far riconoscere un cane: centinaia di immagini taggate di cani. L'algoritmo analizza le immagini per apprendere come classificare un cane identificando le caratteristiche rilevanti e strutturando la rete neural:e in modo appropriato rispetto ai dati in entrata.
Una volta che il livello di precisione è abbastanza alto la macchina ha imparato a riconoscere i cani senza l'intervento dell'uomo.
Sono utilizzate per il riconoscimento di immagini, traduzioni on line, assistenti personali degli smartphones, diagnostica medica e robotica avanzata:
... e per le predizioni...

IA e machine learning offrono molti vantaggi:
- identificazioni di schemi e correlazioni troppo complessi per gli umani da individuare
- la velocità con cui gli algoritmi possono eseguire i compiti di analisi
Problemi: "black box" non sappiamo come fanno. I calcoli che eseguono non sono in chiaro.
Dato in entrata ne produce uno in uscita passando attraverso un processo di apprendimento che non ci è noto.
(paradosso di Polanyi: conosciamo di più di quello che possiamo spiegare)
Conoscenza implicita.
Per trasferire la conoscenza necessaria a parlare una lingu, andare in bici o riconoscere oggetti il modo migliore è attraverso esempi ed esperienze pratiche.
Gli algoritmi dunque producono davvero conoscenza se in realtà non approfondiscono la nostra comprensione di come funziona il mondo?

4) dove possiamo spingere le predizioni: predire il successo.
Nel febbraio 2012 Vespignani ed il suo gruppo creano un sistema per indovinare il vincitore di "american idol".
metodologia: usare i dati di twitter. Un algoritmo di estrazione del segnale di Twitter filtra in tempo reale tutti i messaggi contenenti i nomi dei concorrenti ed altre parole chiave. Si raccoglievano 500.000 messaggi per show che permettevano l'estrazione di un campione geolocalizzato sulla mappa USA. Algoritmo statistico per i risultati.
tre giorni prima della proclamazione del vincitore finale viene pubblicata su ARVIX.com la metodologia seguita
L'anno seguente furono cambiate le regole del gioco.

prevedere = perdere la paura dell'incognito
Più il sistema funziona, più ne aumentiamo l'utilizzo

Algoritmi predittivi ci analizzano quando:
chiediamo un prestito in banca
ci candidiamo per un posto di lavoro
risultati sportivi, successo artisti, politica, economia.
gusti musicali (spotify), amazon e netflix
Amazon sbaraglia tutti perchè riesce a prevedere ciò che vogliamo prima di esser entrati in un negozio.

Le applicazioni leggono nella ns mente e ci guidano raccomandandoci di cosa abbiamo bisogno.

Alla base di Spotify (netflix youtube, ecc)c'è un algoritmo chiamato "filtraggio collaborativo" (collaborative filtering) il cui ingrediente sono le persone.  Questi algoritmi partono da circa 2 miliardi di playlists create dagli utenti.
ogni playlist rappresenta i gusti ed il comportamento di ascolto di ciascun utente, e questo dato viene arricchito con altri dati quali numero delle volte in cui ogni brano viene ascoltato, se il brano è stato selezionato dopo la visita alla pagina dell'artista, ecc.
Ipotesi di base: se due utenti hanno in comune molti brani nelle playlists allora hanno gusti musicali affini.
Quindi ogni utente probabilmente apprezzerà i brani che non sono nella sua ma sono presenti in quella del suo "simile".
Costruisce poi una matrice incrociando "200 milioni di utenti" con "30 milioni di brani" che viene poi "fattorizzata" (fattorizzazione di matrice) e si ottengono due tipi di vettore:
U il vettore utente che rappresenta il gusto di un singolo utente
C il vettore canzone che rappresenta il profilo di una singola canzone
Il "filtraggio collaborativo" confronta il vettore di ogni utente con tutti i vettori degli altri utenti trovando quelli più affini, e così procede per le canzoni (affinità tra le canzoni)
Le misure di similarità sono associate a dei numeri utili a creare predizioni quantitative.
Il filtraggio permette di raccomandare cose complicate come musica o film senza che la AI comprenda cosa siano!
Poiché necessitano di grandi quantità di dati, questi servizi si basano su modelli di business che consentono abbonamenti gratuiti: i dati degli utenti non paganti forniscono "benzina" all'algortimo che riuscirà ad offrire servizi più completi a chi paga.
L'azienda attuerà un filtraggio collaborativo ed aggiungerà altri algoritmi ed informazioni: Spotify utilizza il processo NLP (natural language processing) che permette di ottenere ulteriori informazioni sui brani musicali analizzando articoli di notizie, blog ed altri testi su internet.  Così ogni brano e artista vengono caratterizzati da migliaia di termini che generano un altro vettore da utilizzare per stabilire se due brani sono simili.
Spotify usa poi le reti neurali per analizzare le tracce audo delle canzoni: così riesce a definire una similarità ed una classificazione  per le nuove uscite musicali (altrimenti non raccomandabili per mancanza di informazioni).
Il segreto custodito è come questi algoritmi vengano miscelati.

2014 laboratorio di knowledge discovery and data mining, informatica università di Pisa e CNR, Pappalardo e Cintia.
tre PC:
- uno da i voti ai calciatori come farebbe un giornalista
- uno più obiettivo ancora
- uno simula incontri di campionato
Intuizione: la squadra che fa più passaggi ha più probabilità di vittoria.
Simulazione incontri ed ad ogni incontro 3 punti alla squadra che faceva più passaggi (senza considerare i goals)
Nel 2014 non indovinò proprio tutto: qualche squadra giocava in contropiede con pochi passaggi ma segnava.
Altre (Inter) tanti passaggi ma non concretizzava.
Viene aggiunto "l'indice di efficienza in attacco ed in difesa" chiamato "Pezzali score" (da max pezzali)
Con questo il risultato predittivo era migliore.
2010 Luis Amaral sviluppa algoritmo che si concentra sulle interazioni tra i vari giocatori ricostruendo il network di chi passa la palla a chi.
Oggi la IA è usata come "allenatore virtuale": screma la lista dei candidati e viene usata per evitare infortuni muscolari durante gli allenamenti (sensori gps integrati con accelerometro)
dal 2017 Javier Fernandez (master in AI) lavora al Barcellona.

Come giudicare uno scrittore?
Deep-text (facebook) utilizza il deep learning ed interpreta migliaia di post al secondo in 20 lingue, comprendendone la sostanza del messaggio (e valutando se lecito o scorretto, se ha appeal oppure no, cosa importante per la piattaforma).
Nel 2018 Vespignani ed altri creano il Network Science Institute (Northeaster University) provando a prevedere le vendite di un libro.
Esaminati 4500 volumi pubblicati dal 2008 al 2016 ed incrociati i dati con Nielsen Bookscan che registra le copie vendute.
Regole individuate:
- se il volume è un saggio le vendite sono la metà rispetto ad un romanzo
- la competizione è molto forte sotto natale (si comprano più libri) ma per diventare best seller devi vendere 10 volte le copie necessarie a divenirlo a febbraio o marzo
- un libro di narrativa raggiunge il picco di vendite nelle prime 6 settimane d'uscita, un saggio nelle 15 settimane; in seguito le vendite scendono (tranne che se il libro vince un premio)
Differenze tra la firma di un saggio o di un romanzo. Nel primo caso la produzione precedente non influenza il risultato (l'opinione dei lettori). Non è così nel secondo caso.
S=sales, T=tempo
La curva di un best seller è molto diversa da quella di un saggio specialistico per 3 parametri:
1) "Fitness": capacità di un libro di rispondere ai gusti di un ampio pubblico tenendo conto delle possibili differenze nel tipo di scrittura, pubblicità, ecc
2) "immediacy": il fattore novità (anche i capolavori invecchiano); misuriamo il picco.
3) "aging": tasso di perdita d'interesse nei confronti di un volume con il passare degli anni.
S*=g(S) e t*=f(t) dove g e f sono due funzioni che dipendono anche dai 3 parametri (fitness immediatezza e longevità).
Per cui è possibile scrivere un'equazione S*=F(t*) che è identica per ogni libro.  Una legge dell'editoria.
Misurando i 3 parametri nelle prime settimane d'uscita del libro ed inserendoli nell'equazione precedente ricaviamo un quadro del suo futuro che diventa sempre più preciso mano a mano che aumentano i dati a disposizione.
Uno dei firmatari è Albert Laszlo Barabasi.


Barabasi ha sviluppato ciò che chiama "scienza del successo": partito dalle previsioni di vendita dei libri si applica a molti ambiti.
Il segreto è non considerare il successo come prestazione individuale, ma legato a doppio filo con il riconoscimento altrui: un fenomeno collettivo.
Per anticiparlo bisogna studiare come il nostro lavoro viene percepito dalla società.
L'ha applicato all'arte: il talento da solo non basta, quel che conta è l'accesso precoce ad istituzioni prestigiose geograficamente concentrate e strettamente interconnesse.
I luoghi dove vengono esposte le prime 5 opere determinano la carriera nei successivi 20 anni.
I curatori delle mostre si conoscono a vicenda e .. si copiano.

Ricerca sulle relazioni affettive. Jon Kleinberg e Lars Backstrom (ingegnere FB)
Anche qui un algoritmo ha scoperto che si possono scoprire relazioni amorose non tanto in base al numero di amici comuni su FB, ma in base alla "dispersione" (quando gli amici di una coppia non sono ben collegati l'uno con l'altro.
L'ipotesi del gruppo di lavoro è che i partners agiscono come una specie di ponte tra i rispettivi gruppi sociali.
se due persone condividono molte amicizie senza ulteriori legami è perchè fungono da connettori
se stanno facendo da collante è perchè sono una coppia.
L'algoritmo indovinava il 60% delle volte (il caso è pari al 2%)
Usavano poi la dispersione come una metrica predittiva per le separazioni: le coppie senza un'elevata dispersione di connessioni avevano il 50% di probabilità di separarsi nei successivi 2 mesi rispetto ad una coppia con elevata dispersione.
Il fine della ricerca era ottenere algoritmi predittivi sul tipo di relazioni sociali per meglio coordinare pubblicità e messaggi mirati al singolo utente.
Gramellini "abbasso gli algoritmi"

5) trappole
Gli algoritmi sono sensibili ai bias che incosciamente trasmettiamo loro.
Riconoscimento facciale: algoritmi di apprendimento automatico che imparano a riconoscere il viso in base ad una serie di indicatori biometrici del viso.
Il livello di accuratezza dipende dal tipo di apprendimento cui sono stati sottoposti.
studio di Boulamwini del 2015-2016: Microsoft ibm & c riconoscono un viso maschile praticamente sempre, uno femminile di colore solo 79%.
Nel 2015 polverone perchè studenti di colore etichettati come "gorillas".
Nelle banche dati comuni i neri sono sottorappresentati, e questo causa poco addestramento e difficoltà di riconoscimento.
Le reti neurali che classificano immagini sono addestrate grazie a ImageNet (14 milioni di foto etichettate): il 45% dei dati proviene dagli USA dove vive solo il 4% della popolazione mondiale (Cina + India contribuiscono con solo il 3% dei dati rappresentando i 2/3 della popolazione mondiale).
questo è un problema perchè il riconoscimento facciale interessa smartphones e polizia!

Minority report: vengono sempre più spesso usati dalle forze di polizia per decidere dove stanziare i presidi.
Uno studio del 2017 sui fermi di guidatori in california ha dimostrato che i poliziotti si comportano più severamente con i neri piuttosto che con i bianchi: questo bias passa agli algoritmi.

William James: "molte persone credono di pensare quando in realtà stanno solo riorganizzando i propri pregiudizi"

I set di addestramento degli algoritmi devono avere la necessaria rappresentatività di caratteristiche sensibili (etnia, genere, reddito ecc ecc).

Se i dati sottoposti sono rappresentativi, può un algoritmo essere imparziale?
La definizione matematica del concetto di imparzialità non è univoca (colpo al cuore dell'uso dei sistemi predittivi nel caso di sistemi sociali).
Tribunali, banche, altre istituzioni utilizzano algoritmi predittivi per prendere decisioni importanti per la ns vita ("sistemi di decisione automatizzata"): in base ai dati disponibili l'algoritmo  calcola quale sia la probabilità che in futuro l'individuo possa andare in bancarotta, commettere reati, ecc.
Nel 2016 il sito web ProPublica rese noto il caso dei neri che venivano giudicati dall'algoritmo (circa il rilascio su cauzione) in maniera più severa rispetto ai bianchi.
COMPAS genera uno score (per aiutare i giudici nelle loro decisioni) basato sulla predizione del rischio di recidiva entro due anni.
Analizzando gli atti pubblici i giornalisti rilevarono che l'algoritmo sfornava un numero sproporzionato di "falsi positivi" tra i neri.
La società sviluppatrice del software sosteneva che lo strumento fosse privo di bias e bianchi e neri venivano classificati con la stessa ACCURATEZZA.
Infatti compas rispettava la parità predittiva: stesso tasso di successo nel prevedere se un bianco o un nero sarebbe stato recidivo.
Parità predittiva ed eguaglianza falsi positivi sembrano esser due definizioni matematiche del concetto di imparzialità: sono invece mutualmente esclusive.

10 bianchi e 10 neri.
numero bancarotte tra i bianchi il doppio di quelle tra i neri.
L'algoritmo identificherà 4/10 di bianchi ad alto rischio contro 2/10 di neri ad alto rischio.
Se l'algoritmo è "corretto" e "imparziale" identificherà nel gruppo neri un numero individui ad alto rischio che è la metà di quelli identificati nel gruppo bianchi.

La probabilità che un individuo ad alto rischio vada in bancarotta deve esser eguale indipendentemente dal colore (parità predittiva)

Se i tassi di bancarotta seguono le statistiche in bancarotta 2/10 neri e 4/10 bianchi

Se l'algoritmo ha capacità predittiva del 50% solo la metà di quelli ad alto rischio vanno in bancarotta e precisamente:
2 ad alto rischio bianchi + 2 bianchi non a rischio; 1 ad alto rischio neri + 1 nero non a rischio.
Ci saranno 2 bianchi ed 1 nero falsi positivi.

L'algoritmo ha parità predittiva ed esegue previsioni statisticamente eque e corrette.
Tuttavia se confrontiamo i falsi positivi con tutti quelli che non sono andati in bancarotta otteniamo:
bianchi 2 su 6
neri 1 su 8
L'algoritmo automaticamente identifica erroneamente i bianchi con una probabilità molto maggiore, discriminandoli.

Difficile raggiungere parità predittiva ed equità nel tasso di falsi positivi.

Google Flu treds.
Nel 2013 GFT iniziò a sbagliare le previsioni (prevedeva più del doppio dei casi). Google eutanizzò il progetto nel 2015.
David Lazer 2009 pubblica il "manifesto scienze sociali computazionali", il campo che sfrutta i dati e le nuove capacità informatiche per creare nuova conoscenza e modelli quantitativi nelle scienze sociali.
Problema di GFT: eliminare quelle ricerche correlate all'influenza ma che non c'entrano nulla con lo stato al momento dell'epidemia (posso cercare "flu" per motivi di ricerca, perchè voglio vedere se annulleranno le partite di baseball, ecc. ecc.).
GFT ha fallito non prevedendo la suina (A-H1N1) nel 2009, una pandemia non stagionale: fu chiaro che GFT prevedeva la stagione invernale più che quella influenzale.
GFT fu modificato sino al 2013, ma ha continuato a produrre svarioni

Non si è mai capita la ragione del perchè GFT fallisse.
Tuttavia è stata un'intuizione eccezionale che ha aperto la strada ad un enorme numero di applicazioni predittive basate su dati non convenzionali in molti campi.
Gli algoritmi suoi successori ("Sfida influenzale" oggi anticipia di 4 settimane l'epidemia) usano algoritmi più sofisticati e fondono insieme dati di tipo diverso (ad es combinano le ricerche su Google con dati provenienti da twitter, instagram, e le ricerche su wikipedia).
Il fallimento di GFT ha stimolato la riflessione sui limiti e pericoli di un uso generalizzato ed acritico degli algoritmi predittivi relativamente ai sistemi sociali:
a) i dati generati dagli utenti dei sistemi informatici possono cambiare nel tempo. L'algoritmo di google è il risultato di migliaia di decisioni prese dai programmatori e da milioni di consumatori. Le ricerche consigliate sono basate su ciò che altri han cercato in precedenza e fanno aumentare il volume di certe parole chiave.
b) l'apprendimento automatico fa si che il valore Y sia predicibile dato X basandosi su correlazioni statistiche, che spesso non implicano principi di causazione.
https://www.tylervigen.com/spurious-correlations  è un esempio di correlazioni forti senza causazione.


Gli algoritmi apprendono realzioni tra gruppi di variabili e classificatori che spesso non possono esser spiegati in modo esplicito (mescolamento causazione e correlazione): è la famosa "scatola nera".
Funziona per predire ma non sappiamo perchè, e come nel caso di GFT potrebbe ad un certo punto smettere di funzionare.

Il fallimento della previsione dell'elezione di Trump è invece spiegabile dal fatto che i livelli di incertezza statistici (intervallo di errore) siano spesso più ampi delle differenze di consenso tra i candidati.
Una previsione con un errore al 30% quando la differenza tra le preferenze alla fine è del 10/15% è l'esempio.
Per le previsioni del tempo accettiamo l'errore perchè sono eventi che si ripetono sempre, ma le elezioni sono rare!

ATTENZIONE!
i metodi predittivi basati su AI e machine learning si basano sull'assunto che "il nostro futuro è il passato".
Poichè le predizioni si basano sullo studio di associazioni tra dati del passato, anche il futuro è in qualche modo "scritto nel passato".
E' il "metodo degli analoghi" (studio del passato per trovare momenti in cui lo stato del sistema ha proprietà simili a quelle osservate oggi, così da usare questa informazione per predire il futuro): più dati ci sono megli è.
E' ottimo per prevedere ad esempio le temperature, non per fenomeni come l'influenza: dati influenzali di 30 anni fa' non servono perchè diversi i rimedi ed i protocolli ospedalieri (si rischia di peggiorare le previsioni perchè il passato diverso dal futuro).
Usare le IA per i sistemi sociali necessita trasparenza ed interpretabilità (e consapevolezza dei limiti dei sistemi predittivi).

Se un sistema predittivo funziona non possiamo dedurne l'affidabilità.
Potremmo costruire un sapere poggiato su basi concettuali sbagliate senza esserne consapevoli: il sistema tolemaico funzionava abbastanza bene, le differenze di luminosità spiegate con la teoria degli epicicli.
Ma si basava su una base sbagliata!
Come evitare queste trappole?
a) Bisogna tornare alla teoria: comprensione teorica del funzionamento degli algoritmi, "aprire le scatole nere".
b) usare dati e algoritmi come succede nella meterologia, invece di identificare associazioni statistiche basarsi su soluzioni numeriche di equazioni.  Sviluppiamo prima modelli teorici dei meccanismi che governano evoluzione di un sistema (equazioni validate da esperimenti scientifici), poi usiamo le IA per risolverli.
"Simulazione di un sistema all'interno di un PC"
Si fissano modelli computazionali nei quali anche gli esseri umani sono simulati.

6) nuovo sistema di predizione: i mondi artificiali
2014 febbraio. Ebola in Guinea. Poi Liberia e Sierra Leone. Agosto OMS emergenza sanitaria.
Obiettivo era ricreare all'interno dei computers una rappresentazione algoritmica della società colpita da ebola il più fedele possibile alla realtà, capace di tracciare il singolo individuo.
Fine epidemia gennaio 2016 con 28.000 casi e 11.000 morti.
Simulazioni numeriche: a differenza di machine learning ed IA (che cercano correlazioni ed associazioni) si basano sulle leggi della fisica (nocciolo teorico costituito da equazioni fondamentali).
Nel caso delle previsioni del tempo si copiano le condizioni attuali e poi si fanno generare alle previsioni degli "ensemble" di previsioni che vengono riassunti associando delle probabilità agli eventi futuri.
Epidemie e "modello a compartimenti". Kermack e McKendrick, Reed e Hampton Frost, dividono la popolazione in 3 gruppi (modello SIR):
- suscettibili (contagiabili)
- infetti (agenti di contagio)
- recuperati (guariti + morti) non possono più contagiare
Il passaggio da un insieme ad un'altro è determinato da una serie di variabili che dipendono dalle proprietà del virus e dalle interazioni tra gli individui.
Questi modelli erano molto semplici e non tenevano conto delle differenze economiche, ambientali e pure fisiologiche tra gli individui.
Ira Longini: negli anni 2000 sono diventati disponibili dati quali le sequenze genetiche degli agenti patogeni, la mobilità umana, cartografie con risuluzione di 1 km quadrato sulla distribuzione della popolazione, oltre ai dati dei socials, ecc ecc
I modelli per le previsioni epidemiche ricostruiscono sul computer mondi artificiali con i quali simulare in modo realistico la diffusione delle malattie infettive: "epidemiologia computazionale".
Tali modelli sono definiti meccanicistici perchè includono esplicitamente i meccanismi di trasmissione della malattia tra le persone.
"individual based models" (modelli di individui) o "agent-based models" (modelli ad agenti) si spingono ad associare le persone ai nuclei familiari, ai posti di lavoro ed alle scuole.
La popolazione ottenuta è statisticamente equivalente a  quellla reale simulando giornalmente la loro vita i loro movimenti ed interazioni.
sono naturalmente previsioni "probabilistiche": come per le previsioni del tempo si considerano, partendo dalle stesse condizioni iniziali, milioni di evoluzioni possibili.
La ricostruzione del movimento delle persone tra le città permette di sapere quali saranno infettate per prime e da li dove andrà il virus.


Nel 2016 si adoperò questo sistema per affrontare Zika. Si scoprì dal modello che Zika si era diffuso già nel 2014 (quindi i modelli utili anche per indagare sul passato).

Los Alamos National Laboratory: affronta le sfide deòòa sicurezza nazionale.
TRANSIMS (sistema dei trasporti): fornisce uno strumento di analisi predittiva per valutare l'impatto dei combiamenti nel sistema di trasporto delle aree metropolitane. Tiene traccia dei singoli viaggiatori.
(Metodo montecarlo già ai temmpi del progetto Manhattan)
Poter usare modelli probabilistici al computer eseguendo simulazioni che tengono in conto la variabilità del mondo reale: simulazione delle società artificiali.
Transims dalla fine degli anni '90 è sempre stato migliorato.
Simulazione attacco nucleare a Washington DC con 730.000 individui artificiali statisticamente identici alla popolazione reale rispondono agli eventi con diverse modalità di comportamento: ad es evacuazione dell'area o ricerca di famigliari.
Si scoprono comportamenti controintuitivi: congestione strade che portano a ground zero da parte di chi cerca di raggiungere i propri cari di cui non ha notizie.
Simulazioni per ogni tipo di fenomeno (alluvioni, terremoti, crisi economiche).
La regina chiese "perchè la crisi del 2008 non è stata prevista"; non siamo in grado di prevedere quando si verificheranno tali crisi, ma si può prevedere se il sistema economico è in uno stato stabile (si sono introdotti gli "stress tests").
Calcolano la probabilità che la bancarotta di una sola istituzione possa propagarsi a gran parte della rete del sistema finanziario.
Gli effetti della bancarotta sono trattati come un fenomeno di contagio del rischio di insolvenza, riproducendo la mobilità del debito invece che delle persone.
La teoria del contagio esce dall'ambito epidemiologico per entrare in campi quali marketing e diffusione notizie.

Il contagio sociale.


La teoria del contagio biologico è un quadro concettuale applicabile a fenomeni di diffusione e contaminazione in diversi ambiti: diffusione delle idee politiche, mode, conoscenze.
Individui infettano altri individui attraverso le interazioni che ogni giorno definiscono la ns rete sociale.
Suscettibili = persone non ancora a conoscenza (o un prodotto)
Infettivi = chi ha già la conoscenza (o un prodotto)
Recuperati = chi ha la conoscenza (o un prodotto) ma non vi è più interessato.

Differenza contagi biologico e sociale:
biologico: esser esposti in due momenti diversi allo stesso patogeno = probabilità di contaminazione
sociale: no, perchè alla seconda saremo meno disposti.
La probabilità di contrarre influenza da un amico o uno sconosciuto eguali nel biologico, non nel sociale.
Lo spazio in cui si muove in contagio biologico è quello reale, nel sociale è la geografia della società.
Per la prima volta oggi è possibile mappare chi sono le persone con le quali parliamo e con cui condividiamo informazioni (e che definiscono la ns rete sociale).

Sinan Aral dal 2006 al 2017 ha studiato la diffusione delle notizie su twitter.
Ha scoperto che le fake news si diffondono più lontano e più velocemente, specie quelle politiche.
E' stato sviluppato "Botometer", un algoritmo che controlla l'attività degli accounts su twitter e fornisce la probabilità che un account sia un Bot gestito da una AI
3 fattori sono alla base dei meccanismi di successo delle fakes:
- enorme quantità di dati disponibili
- quantità limitata di tempo ed attenzione che le persone possono dedicare alla scelta di cosa condividere
- la struttura dei social networks sottostanti
I modelli di contagio mostrano che una notizia può diventare virale indipendentemente dal suo contenuto o veridicità.
Talvolta le notizie diventano virali semplicemente a causa di un sovraccarico di informazioni.
Dunque ruolo fondamentale dei BOT (tra il 9 ed il 15% degli account su twitter, 60 milioni su FB)
- In un sovraccarico di notizie i BOT diventano arma per dare risalto a notizie specifiche.
- la formazione di camere "echo", la tendenza a creare circoli chiusi includendo solo individui che hanno le ns tendenze ed opinioni: la notizia "rimbomba" senza che nessuna fonte alternativa possa esser vista (conseguenza del tipo di algoritmi delle piattaforme che cercano di offrire info personalizzate sui gusti dell'utente).
Dunque la tendenza ad uscire dalla cacofonia generale ci spinge a rinchiuderci in prigioni dell'informazione nelle quali distinguere il vero dal falso è impossibile.
In una guerra dell'informazione gli algoritmi ci aiuteranno a distinguere le fake news.

I mondi possibili.
- I modelli algoritmici basati sul machine learning possono solo predire un futuro basato sulla nostra conoscenza del passato
- I modelli di simulazione permettono di alterare i meccanismi di interazione che definiscono il futuro del sistema (pensare situazioni di quarantena, blocco degli aerei, città in cui le auto siamo vietate)
I modelli vengono convalidati mentre si costruiscono con esperimenti e dati ricavati dal mondo reale.
Inoltre vengono considerati un insieme di modelli sviluppati con tecniche differenti e da molti gruppi di ricerca (pesandoli dove possibile con le loro prestazioni storiche).
Così si definisce il "cono di incertezza" (l'errore statistico) che aumenta con la distanza nel tempo (come con le previsioni meteo).
Le persone poi cambiano comportamento in base alla consapevolezza ed alla conoscenza del futuro; quindi necessità di aggiornare i modelli di frequente per valutare il ciclo di feedback tra le previsioni e l'adattamento  comportamentale degli individui indotto dalle previsioni stesse.

7) Governare il futuro
Nel 2009 Vespignani sviluppa un modello per la previsione dell'andamento dell'epidemia influenzale che ha successo; in genere picchi sono a febbraio / marzo, ma in quel caso furono tra ottobre e novembre (previsti dal suo team sin dal giugno precedente).

Scienza delle previsioni:
- è fondata sul valore statistico dell'analisi di un gran numero di individui (necessari molti dati per trovare le regolarità statistiche di cui abbiamo bisogno)
- esamina dati, comportamenti e leggi statistiche misurati al momento della predizione: cambiamenti radicali (tipo cambio tecnologia) modificano il contesto e la validità delle previsioni.
- logicamente se gli individui vengono a conoscenza della previsione, agiranno in modo da evitare catastrofi.
le previsioni diventano allora parte del sistema che cercano di prevedere.
- le previsioni hanno sempre un grado di incertezza che viene quantificato dalla probabilità.
- le previsioni non si applicano al singolo individuo: ma oggi difficile sostenerlo ancora! Simulare il comportamento di 7.5 miliardi di abitanti non è un problema per i super computers
Madhav Marathe si occupa di "previsioni personalizzate" on deman dal 2013
E' l'idea a base di Immuni! (stai lontano dall'influenza).
L'apparizione sul mercato di oggetti come orologi che misurano il battito cardiaco, la temperatura ed i movimenti apre la strada ad oggetti sempre più piccoli (un anello in futuro?) che ci monitoreranno personalmente e sarà possibile sapere le condizioni "intorno a noi" (quante probabilità ha mia figlia uscendo di prendere l'influenza)
Si sta sviluppando un'app che suggerisce di evitare un certo supermercato se all'interno c'è un'alta incidenza di persone con l'influenza.

Nate Silver (un predittore di successo delle campagne elettorali USA) avverte che bisogna andare con i piedi di piombo nei successi come nei fallimenti.
Prevedere è difficile: i modelli elettorali sono basati su campioni statistici con rilevanti margini di errore, i modelli ad apprendimento automatico hanno limiti in mancanza di enormi masse di dati, per le elezioni mancano modelli simulativi generalizzabili.
Vespignani insieme a Perra e Baronchelli iniziarono ad analizzare i tweet sviluppando una "cartografia dei network di conversazione", chiamate "le autostrade del dialogo"
Nel 2017 Wojcik e Lazer creano un modello previsionale che indovina il 90% dei risultati elettorali delle elezioni: le elezioni diventano prevedibili mano a mano che maggiori info sull'opinione pubblica e sulle fonti dei sondaggi possono esser inserite negli algoritmi.
Non tutti i modelli di successo sono pubblici: poichè rappresentano un'opportunità di guadagno, chi li ha e funzionano potrebbe tenerli ben nascosti!
Esempio un algoritmo del 2010 che per predire il mercato azionario analizzava il contenuto del testo dei tweet di un certo giorno per ottenere serie temporali dell'umore pubblico (che venivano poi correlate al Down Jones per valutare la capacità di prevedere cambiamenti nell'indice azionario).
Pubblicato ebbe eco mondiale, poi nessuno ne seppe più nulla (anche se esistonoservizi che producono le serie temporali dell'umore sui social ad uso della finanza).

La scienza delle previsioni ha due facce:
- strumento di progresso potentissimo
- strumento di controllo e prevaricazione
Vengono pubblicizzate le app "a fin di bene" (e sono moltissime! da quella che studia come si comporta la gente durante i tifoni per prevedere cosa faranno la prox volta, a come reintegrare i migranti, ad identificare i segni di depressione dai colori prevalenti su instagram)
Ma esistono anche applicazioni che non sono pubblicizzate: manipolazione a fini politici, algoritmi di polizia predittiva (PredPol per predisporre meglio le risorse sul territorio).
I loro successi sono tenuti nell'ombra e creano una disconnessione con la società civile (manca la consapevolezza di ciò che sia possibile o meno nel mondo delle predizioni)

"i finti scandali":
- il caso Snowden. Dalle info sembrava che la NSA stesse eseguendo analisi basate sulla moderna teoria delle reti per identificare i terroristi.
Ma non solo le agenzie governative lo fanno! Anche in ambito commerciale e da decenni!
Se la NSA avesse reso pubblica la cosa e poi non fosse riuscita a predire un attentato ...!!!!
- cambridge analytica: la società aveva acquistato e usato da un ricercatore che aveva mentito a FB sull'utilizzo dati personali degli utenti.
La società prevedeva messaggi adeguati al profilo psicologico dell'individuo (il "microtargeting"); per ogni abitante USA disponeva 4/5.000 dati psicometrici. Le basi del lavoro di CA si leggono in una pubblicazione del 2013 Kosinski, Stillwell Graepel che avevano utilizzato i like (ed avevano  usato un set di 58.000 volontari per addestrare il machine learning) distinguendo con sicurezza etero da omo, afroamericani da altre etnie, ecc (età sesso etnia opinioni politico religiose, orientamento sessuale, tratti di personalità, intelligenza, felicità, uso di droghe, separazione dei genitori,..)
cambridge analytica aveva abusato dei dati ma lo stesso tipo di analisi sono fatte da chi li possiede questi dati da anni e di continuo!
- nyt 2018 un centinaio di aziende ricevono dati anonimi ma precisi da app degli smartphones (abilitati al servizio di localizzazione per meteo, notizie ecc).
La posizione di un individuo è registrata 14.000 volte al giorno! Siamo noi a fornire i dati a google map, e non dimentichiamo che con un pugno di dati geografici è possibile predire i movimenti dei singoli al 90%.
Le app specificavano l'uso dei dati, quindi niente di illegale.

Movimenti per definire un'etica dell'uso dei dati. Noi GDPR.
Il problema è la mancanza di consapevolezza da parte del pubblico di quali poteri ed opportunità ci offrono gli algoritmi. Sembra che pochi vogliano veramente capirne il funzionamento.
Gli algoritmi così diventano indovini gestiti da una casta di sacerdoti con i quali non possiamo comunicare e di cui non possiamo comprendere i poteri.

8) smascherare gli indovini digitali
Le previsioni non sono alla portata di tutti; richiedono enormi infrastrutture e moli di dati gigantesche.
Un mondo a due velocità, dove diseguaglianze economiche si riflettono in diseguaglianze di intelligenza predittiva. Alcuni governi avranno la sfera di cristallo, altri no.
Gli incentivi a diffondere i risultati dei modelli previsionali sono pochi.
Chi avrà potere predittivo cercherà di nasconderlo (anche perchè altrimenti ci sarebbero feedback che modificano il futuro rendendo vane le predizioni).
Al contrario della ricerca nucleare (condotta da stati) qui la ricerca è condotta da privati!
Google e FB non rubano dati a nessuno: "sono seduti sui rubinetti dei tubi che li trasportano", un potere che non hanno neppure le più grandi nazioni del mondo.
Chi ci assicura che queste multinazionali abbiano a cuore il bene dell'umanità? (o che continuino in futuro ad averlo?)
Non parliamo poi se scendiamo a livello di individuo (saggiatore rifiuta di pubblicare il mio libro perchè "sa già" che sarà un fallimento).
La definizione di un'etica delle previsioni è un problema complesso.
C'è bisogno di un'alfabetizzazione computazionale (non che tutti diventino informatici come non è necessario essere scienziati atomici per capire i pericoli dell'energia nuke).

Nessun commento:

Posta un commento

Elenco riassunti:

1)  David Quammen :  Spillover  2) Dean Buonomano: Il tuo cervello è una macchina del tempo 3) Gerd Gigerenzer: imparare a rischiare 4) Ales...