La nuova frontiera dei dati sintetici

Avatar photo
Sharing


La nuova frontiera dei dati sintetici

Prodotti da algoritmi di calcolo o modelli matematici, possono alimentare modelli di Intelligenza Artificiale. Un percorso tra realtà e caso, ordine e disordine, per noi piuttosto accidentato.

Cosa accade quando non ci sono dati sufficienti per testare un prodotto, oppure quando non c’è un numero abbastanza grande di pazienti su cui provare un farmaco? Come si fa quando non c’è abbastanza tempo per verificare la stabilità di una infrastruttura, o quando non si vogliono fare esperimenti coinvolgendo persone reali, per questioni di rischi o di privacy?

Fino a ieri le possibilità erano due. O ci si buttava nel vuoto prendendo le decisioni con quei pochissimi dati disponibili, oppure si desisteva, abbandonando definitivamente la scelta o rinviandola per ottenere una maggior quantità di dati reali. Ora c’è un’alternativa: sono i dati sintetici. Prodotti da algoritmi di calcolo o modelli matematici, i dati sintetici possono alimentare modelli di Intelligenza Artificiale in grado di aiutare a sviluppare quei test, laddove i dati provenienti dalla realtà siano un problema.
Si apre però un dilemma: come si fa a chiedere ad una macchina di produrre dati a caso senza darle delle regole che quindi la portino fuori dal contesto casuale tipico della realtà?

Una comoda soluzione

Immaginiamo di trovarci nel mezzo di un’improvvisa pandemia con l’esigenza urgente di un vaccino, ma prima di utilizzarlo serva un test su migliaia di persone, oppure si debba attendere un lasso di tempo troppo lungo.
È l’eventualità in cui i dati sintetici potrebbero essere una soluzione. Da una base di pochissimi dati reali, infatti, i dati sintetici sono creati artificialmente attraverso modelli matematici, simulazioni o algoritmi e possono rappresentare i caratteri di eventi reali o osservazioni della realtà.

Rispondono così ad esigenze contingenti come queste:

  • pochi dati reali o scarsità di tempo per averli;
  • dati reali troppo costosi o laboriosi da produrre o ottenere;
  • limitazioni legate alla privacy o all’anonimizzazione dei dati veri;
  • necessità di non viziare i dati reali già disponibili.

Senza considerare che proprio oggi, con lo sviluppo dell’Intelligenza Artificiale, molti modelli hanno proprio bisogno di essere allenati con enormi quantità di dati, spesso non ancora disponibili.

Regole che generano casualità

Banche ed assicurazioni, aziende farmaceutiche ma anche droni, ospedali e rivenditori ed anche retailers e scienziati potranno usufruirne per ottimizzare le proprie decisioni ed attività.
Con un vantaggio ulteriore: i dati sintetici possono essere creati con caratteristiche e qualità e limitazioni fatte appositamente per rispondere al meglio alle nostre necessità: circoscritti, caratterizzati, etichettati.
Nel 2021 Gartner ha stimato che entro il 2030 i dati sintetici supereranno, per quantità, i dati naturali nei modelli di Intelligenza Artificiale (Maverick research: Forget about your real data – Synthetic data is the future of AI).
La parte di dati raccolta con misurazioni reali, limitate da costi, distribuzione e ragioni di privacy sarà quindi superata da quella generata artificialmente con regole semplici, modelli statistici, simulazioni o altre tecnologie.
Da qui però nasce un dubbio. Come può una regola o un modello o uno schema generare il caso?

Un rapporto difficile

Per provare a rispondere facciamo prima un passo di lato e leggiamo questo pensiero apparentemente complesso di Andrew Kolmogorov, uno dei creatori della teoria della probabilità: il valore epistemologico della teoria delle probabilità si basa sul fatto che il fenomeno casuale, considerato collettivamente e su larga scala, crea una regolarità non casuale.
Già nel 1954, Kolmogorov tentava forse di dirci che in fondo in fondo il caso non esiste. Quindi, potremmo aggiungere noi, non è poi un problema così grave se ci serviamo di regole (quindi regolarità) per produrre dati a caso.
Soprattutto se consideriamo cosa dice il matematico britannico David J. Hand.
Scrive infatti che i bookmaker non sono in grado di dirci con assoluta certezza quale sarà il cavallo vincente, ma in media, con il passare del tempo, i loro pronostici risulteranno più giusti che sbagliati.
Con un po’ di azzardo potremmo allora concludere che anche la natura può generare caos ma anche ordine, casualità ma anche regolarità come per le orbite dei pianeti, per la serie di Fibonacci nelle conchiglie o nei fiori, o per i frattali.
Più che la natura però, è interessante osservare come siamo noi a provare uno straniamento di fronte al caso.

Produrre un caso artificialmente

Quante volte ci siamo infatti sentiti frenati di fronte a istruzioni come queste:

  • inserisci qui la tua nuova password;
  • dimmi sette numeri a caso.

Chiedere all’uomo di produrre qualcosa di casuale è infatti una sfida interessante, che coinvolge scienza e matematica, natura e filosofia e più concretamente risulta come un’azione del tutto enigmatica, difficile da compiere con spontaneità e facile a causarci indecisione.

Ecco perché – per esempio nel caso delle password – ci facciamo aiutare spesso da qualche piccola regola come questa:

  • usa almeno 8 lettere…;
  • inserisci una letter maiuscola…;
  • utilizza almeno un numero…;
  • serviti di un simbolo….

Si tratta certamente di regole finalizzate ad aumentare la sicurezza delle password, ma ci fanno anche superare il blocco di immaginare qualcosa di randomico.
Un’esperienza cognitiva così difficile che fin dall’antichità ci facciamo aiutare.
Abbiamo cominciato con i dadi, il lancio della moneta e poi con la roulette. Ed ora abbiamo le slot machines ed i token per produrre codici numerici e OTP di accesso a dispositivi elettronici.
Possiamo quindi considerare i dati sintetici come un ennesimo prodotto di questi dispositivi di randomizzazione, artefatti pratici, ma anche utili a gestire un percorso tra realtà e caso, ordine e disordine, per noi piuttosto accidentato.

Avatar photo

​Antonio Belloni è nato nel 1979. È Coordinatore del Centro Studi Imprese Territorio, consulente senior di direzione per Confartigianato Artser, e collabora con la casa editrice di saggistica Ayros. Scrive d'impresa e management su testate online e cartacee, ed ha pubblicato Esportare l'Italia. Virtù o necessità? (2012, Guerini Editori), Food Economy, l'Italia e le strade infinite del cibo tra società e consumi (2014, Marsilio) e Uberization, il potere globale della disintermediazione (2017, Egea).