Quali sono le professioni nella Data Science?
Possiamo distinguere tre principali figure:
- Data Engineer
- Data Analyst
- Data Scientist
Data Engineer
Un Data Engineer è il responsabile delle pipeline di dati. Crea programmi e sistemi in grado di acquisire, aggregare, trasformare e strutturare i dati di un’azienda. Grazie agli strumenti, ai linguaggi e alle strutture dell’ingegneria dei dati, crea le soluzioni che permettono il lavoro di data analyst e data scientist.
I data Engineer, dunque, riuniscono le informazioni provenienti da diverse fonti. Integrano, consolidano e puliscono i dati e li strutturano per l’uso nelle applicazioni di analisi. Rendono i dati facilmente accessibili e ottimizzano l’ecosistema dei big data della propria organizzazione.
Gli ingegneri dei dati lavorano in collaborazione con i team di data science, migliorando la trasparenza dei dati e consentendo alle aziende di prendere decisioni aziendali più affidabili. Più grande è l’azienda, più complessa è l’architettura di analisi e più dati saranno responsabili dell’ingegnere.
Le attività principali di un data engineer sono:
- Sviluppare, costruire, testare e mantenere architetture di pipeline di data
- Allineare l’architettura dei dati ai requisiti aziendali
- Identificare modi per migliorare l’affidabilità, l’efficienza e la qualità dei dati
- Preparare i dati per la modellazione predittiva e prescrittiva
- Garantire la conformità con la governance dei dati e le politiche di sicurezza
Solitamente i data engineer hanno un background in informatica, ingegneria, matematica o campo correlato. Poiché il ruolo richiede una profonda conoscenza tecnica, solitamente è richiesta una preparazione formale di alto livello (laurea e/o dottorato). Un bootcamp o una certificazione possono aiutarti ad adattare il tuo curriculum alle posizioni di ingegneria dei dati, se già in possesso di esperienza pregressa in IT o in una disciplina correlata come matematica o analisi.
Per diventare data engineer sono necessarie queste competenze:
- Database (relazionali come mySQL, PostgreSQL e Oracle, e noSQL come MongoDB, Cassandra e Redis)
- Data processing (Apache Spark, Apache Kafka)
- Linguaggi di programmazione (Python, Java e R)
- Data migration (spostare i dati da uno o più sistemi all’altro senza comprometterne l’integrità) e data integration (consolidare i dati provenienti da varie fonti e combinarli in modo significativo e prezioso)
- Sistemi distribuiti (Hadoop)
- Data science and machine learning (come PyTorch, TensorFlow)
- Strumenti ETL e delle API per la creazione e la gestione di processi di integrazione dei dati
Data Analyst
Per capire cosa fa un Data Analyst, possiamo immaginare un puzzle di quelli grandi almeno mille pezzi. Identificare, ordinare e mettere insieme tutti gli elementi per costruire l’immagine rappresentata sulla scatola è un duro lavoro ed è quello che fa ogni giorno chi si occupa di data analytics.
Il principale compito di un analista è infatti di estrarre, pulire, analizzare e interpretare i dati in modo da rispondere a un’esigenza aziendale o per identificare problemi e soluzioni di un certo aspetto di business.
È una figura chiave, necessaria a qualsiasi tipologia di lavoro e che trova il suo maggior successo in ambito di marketing, finanza, scienza, medicina fino ad arrivare agli enti governativi.
Conoscere la risposta a domande come qual è il miglior target di una campagna pubblicitaria o quale gruppo di età è più vulnerabile a una particolare malattia o quali modelli di comportamento sono collegati alle frodi finanziarie, sono spesso parte integrante del lavoro di un Data Analyst.
Arrivare a risolvere queste problematiche implica la sua capacità di analizzare correttamente i dati, ovvero la main skills di questa figura. Tuttavia, la data analysis è una competenza complessa, che possiamo definire come un percorso che si sviluppa su diversi step.
Che cos’è l’analisi dei dati?
La Data Analytics è il processo che permette di ricavare informazioni dai dati per migliorare le decisioni aziendali.
Le tecnologie moderne mettono a disposizione enormi quantità di dati, che crescono anche di complessità: aumenta quindi la necessità di avere un processo efficace e efficiente con cui leggerli e soprattutto sfruttarli.
Il processo di analisi dei dati e di conseguenza il lavoro del Data Analyst è fatta di cinque azioni fondamentali:
Identificare la domanda aziendale a cui il business ha bisogno di rispondere. Quale problema sta cercando di risolvere l’azienda? Avere chiaro il punto di partenza consente di tracciare una linea diretta alla soluzione.
Raccogliere i set di dati grezzi.
Possiamo immaginarli come dei grossi blocchi di marmo che andranno levigati per rispondere alla domanda identificata. La raccolta dei dati potrebbe provenire da fonti interne, come il software di gestione delle relazioni con i clienti (CRM) di un’azienda, o da fonti secondarie, come documenti governativi o API (Application Programming Interface) dei social media.
Pulire i dati per prepararli all’analisi. Per lavorare al meglio, un data analyst deve saper gestire valori mancanti, dati duplicati e individuare anomalie come valori estremi o outlier.
Analizzare i dati: l’analisi vera e propria rappresenta solo una piccola parte del lavoro del Data Analyst. Manipolando i dati utilizzando varie tecniche e strumenti, l’analista deve trovare tendenze, correlazioni, valori anomali e variazioni che siano in grado di raccontare una storia.
Interpretare i risultati dell’analisi: come nel metodo scientifico, dall’analisi si elabora teoria e azione. L’analista deve aver trovato quindi una risposta (o più) al problema di partenza ed essere in grado di fornire suggerimenti e raccomandazioni sulla miglior linea d’azione al business.
Compiti e responsabilità del data analyst
- utilizzo di strumenti – spesso automatizzati – per estrarre dati dalle diverse tipologie di fonti (primarie e secondarie) e valutarne la qualità
- Pulire i dati per prepararli all’analisi. Per lavorare al meglio, un data analyst deve saper gestire valori mancanti, dati duplicati e individuare anomalie come valori estremi o outlier.
- lo sviluppo e la manutenzione di database. L’analista deve spesso riorganizzare i dati raccolti e settarli in un formato leggibile
- utilizzo di strumenti statistici per identificare, analizzare e interpretare modelli e tendenze in set di dati complessi che potrebbero essere utili per la diagnosi e la previsione
- costruire dei grafici e delle dashborad utili per misurare le prestazioni aziendali nel tempo
- analizzare le tendenze locali, nazionali e globali e preparare report e modelli previsionali . Questo è fondamentale per gli analisti che lavorano in contesti internazionali
- collaborare con programmatori, ingegneri e dirigenti per identificare opportunità di miglioramento dei processi. Una parte importante del lavoro dell’analista è proporre modifiche al sistema e elaborare strategie di governance dei dati.
Data Scientist
Il data scientist è un professionista specializzato nella raccolta e analisi di grandi quantità di dati. Un data scientist combina informatica, statistica e matematica per elaborare e modellare i dati, quindi interpreta i risultati per fornire indicazioni strategiche per il successo di aziende e altre organizzazioni.
Usando strumenti e software avanzati, il data scientist esamina i dati per scoprire schemi, pattern e trend. Deve poi essere in grado di presentare e comunicare i risultati individuati a leader aziendali, colleghi e clienti: per questo è richiesta anche una grande capacità comunicativa.
È fondamentale che abbia la capacità di fare le domande giuste, prima di cercare le risposte nei dati. Ecco, quindi, che il data scientist deve anche conoscere il settore di riferimento, comprendere il contesto di origine e raccolta dei dati, essere scettico sui presupposti esistenti e possedere una grande curiosità nell’esplorare nuove soluzioni.
Cosa fa il data scientist
- raccogliere enormi volumi di dati strutturati e non strutturati
- pulire i dati per eliminare le informazioni irrilevanti e preparare i dati per la pre-elaborazione e la modellazione
- eseguire analisi esplorative dei dati (EDA, Exploratory Data Analysis) per determinare come gestire i dati mancanti e per cercare tendenze e opportunità
- codificare nuovi algoritmi per la raccolta e l’elaborazione dei data set
- comunicare previsioni e risultati agli stakeholder attraverso report e data visualization
- raccomandare modifiche a procedure e strategie esistenti
Come diventare data scientist
La maggior parte delle aziende cerca data scientist in possesso di un dottorato di ricerca (Ph.D): si tratta infatti di una professione altamente specializzata, che richiede conoscenze approfondite in diversi ambiti.
Per diventare data scientist sono quindi necessarie lauree in campo informatico, matematico, statistico o ambiti affini, che consentano di acquisire competenze diversificate, che spaziano dalla tecnologia alla conoscenza del mercato e del business, fino alla capacità di utilizzare intelligenza artificiale, tecniche di machine learning, linguaggi di programmazione e tool di visualizzazione dati.
Per diventare data scientist sono necessarie queste competenze:
- architettura e modellazione di dati
- strumenti e tecniche di business intelligence (BI) e data warehouse (DW)
- linguaggi di programmazione (come Python, SQL, Scala, Java, R, MATLAB)
- piattaforme di big data (come MongoDB, Oracle, Microsoft Azure, Cloudera)
- tecniche di machine learning (natural language processing, classification, clustering, ensemble methods, deep learning)
- estrazione di dati (data mining), pulizia dei dati (data cleaning) e data wrangling / data munging
- cloud computing
Non bisogna sottovalutare poi l’aspetto di reportistica: qualsiasi pattern riscontrato o soluzione individuata tramite l’analisi dei dati deve essere reso comprensibile agli stakeholder. Solo in questo modo infatti sarà possibile prendere decisioni data-driven che abbiano un impatto rilevante sul business. Per questo sono fondamentali competenze in strumenti e tecniche di data visualization (ad esempio, Tableau, SAS, D3.js, oltre alle librerie di Python, Java ed R).