Realizzazione di progetti di scienza dei dati

Immagine simbolica: realizzazione di progetti di scienza dei dati @ Gorodenkoff - stock.adobe.com
Immagine simbolica: realizzazione di progetti di scienza dei dati

Pubblicato: 05.07.2022
Autore: Alex Lavrynets

Qualsiasi processo di scienza dei dati (p. es. un progetto di innovazione) può essere suddiviso in una serie di fasi distinte, eseguite da professionisti con background diversi. Un approccio particolarmente accurato a ciascuna fase di questo processo iterativo all’interno di un team assicura che il modello ottenuto alla fine del processo sia efficace.

Nella scienza dei dati si adotta un approccio metodologico induttivo (bottom-up). Questo approccio scientifico mira a spiegare un fenomeno generale sulla base dei dati osservabili raccolti.

Il processo della scienza dei dati è un insieme iterativo di fasi finalizzate a completare un progetto o un’analisi. Ogni progetto di scienza dei dati è unico, così come lo sono i dati necessari per avviarlo e realizzarlo correttamente. Di seguito una descrizione delle fasi più importanti.

Formulazione del problema

La formulazione del problema è una fase essenziale per avviare un processo di scienza dei dati. Occorre capire e inquadrare i termini della problematica. Chi avvia il progetto deve quindi avere una visione trasversale dei processi esistenti (business understanding) per poter formulare il problema in modo preciso. Un documento che dà l’impronta al progetto (p. es. Data Science Project Canvas) consente in questa prima fase di fare l’inventario delle aspettative, delle esigenze, delle risorse e dei rischi insiti in qualsiasi progetto di scienza dei dati.

Raccolta dei dati

I dati sono essenziali per qualsiasi processo di scienza dei dati. La quantità e la qualità di questi dati hanno un impatto sui risultati ottenuti alla fine di ogni progetto. L’enorme quantità di dati, nota anche come megadati (big data), necessaria per il progetto può essere raccolta da varie fonti. Questi dati possono essere strutturati o non strutturati. Anche le dimensioni e il formato possono variare. Può trattarsi, per esempio, di pagine web, immagini, testi, geodati, dati medici o dati provenienti da vari sensori collegati o isolati. In questo caso i set di dati (data set) sono allestiti a partire dai dati raccolti. Nel caso di dati sensibili, il trattamento di tali dati è soggetto al quadro legale della Confederazione in materia di protezione dei dati.

Selezione dei dati

Tutti i dati grezzi raccolti devono essere esplorati e accuratamente selezionati per garantirne la qualità per il resto del processo. I dati anomali (outlier), che possono essere non conformi a causa di un errore umano o di un sensore difettoso, possono essere filtrati in base alla metodologia selezionata.

Preparazione dei dati

Dopo un’attenta selezione dei dati, questi devono essere preparati secondo una struttura definita. Questo passaggio li rende accessibili e leggibili per un algoritmo. Generalmente i megadati sono preparati secondo i principi FAIR: facili da trovare, accessibili, interoperabili e riutilizzabili (Findable, Accessible, Interoperable, Reusable).

Analisi dei dati

L’analisi dei dati permette di individuare, tra la varietà di dati presentati, quelli significativi per la problematica e di stabilire relazioni tra loro. I metodi di analisi causale quantitativi o qualitativi possono essere supportati da strumenti di analisi statistica e matematica, ma anche da strumenti più moderni facenti capo all’apprendimento automatico e all’intelligenza artificiale. Questo approccio è considerato l’attività principale di un esperto o un’esperta in scienza dei dati (data scientist).

Valutazione e interpretazione dei dati

Generalmente i risultati dell’analisi dei dati assumono la forma di nuovi dati collegati e aggregati. Questi ultimi possono essere valutati per garantire che il modello scelto funzioni e risponda alle esigenze formulate nella fase iniziale. La loro interpretazione consente inoltre di acquisire nuovi punti di vista e di adattare il processo a potenziali esigenze prima sconosciute.

Messa a disposizione dei resultati

I risultati sono finalmente messi a disposizione e permettono di risalire alla genesi del lavoro eseguito. Questi risultati possono essere utilizzati come punto di partenza per un nuovo progetto di ricerca di scienza dei dati o per migliorare il processo esistente. A questo punto può iniziare un nuovo processo di scienza dei dati.

In termini di realizzazione dei progetti, il Centro di competenza per la scienza dei dati (DSCC) si limita a soluzioni sotto forma di prodotto minimo realizzabile (minimal viable product, MVP), di solito fornite sotto forma di codice in linguaggio di programmazione R o Python. L’implementazione di questo codice nella produzione, che richiede l’accesso e la comprensione dei sistemi informatici in uso (information technology, IT ), non rientra nella sua sfera di competenze.

Legenda:

La scienza dei dati è un processo rigoroso e documentato di risoluzione dei problemi e di miglioramento continuo basati sui dati.

Ultima modifica 05.07.2022

Inizio pagina

Contatto

Ufficio federale di statistica
Centro di competenza per la scienza dei dati DSCC

Espace de l'Europe 10
CH-2010 Neuchâtel
Svizzera

Contatto

Commenti sul blog

Per un feedback sul nostro blog, si prega di utilizzare il modulo qui sotto.
Grazie mille!

Blog Formulare DSCC

https://www.bfs.admin.ch/content/bfs/it/home/dscc/blog/2022-03-realizzazione.html