B7468 - ESTRAZIONE, INTEGRAZIONE E MINING DI DATI DA SORGENTI COMPLESSE

Academic Year 2024/2025

  • Docente: Fabio Vitali
  • Credits: 5
  • SSD: INF/01
  • Language: Italian
  • Moduli: Fabio Vitali (Modulo 1) Angelo Di Iorio (Modulo 2) Claudio Sartori (Modulo 3)
  • Teaching Mode: Blended Learning (Modulo 1) Blended Learning (Modulo 2) Blended Learning (Modulo 3)
  • Corso: Minor "Learning from data"

Learning outcomes

Il corso ha l’obiettivo di permette l’acquisizione di conoscenze teoriche e competenze pratiche relative ai modelli e alle architetture più comuni di rappresentazione digitale dei dati, alla loro struttura e al tipo di problemi che ciascun formato di dati risolve e quali invece no. Al termine del percorso formativo, lo studente avrà appreso ad usare strumenti nello stato dell'arte per creare pipeline di trattamento dei dati e realizzazione di semplici applicazioni di data analytics. Il corso è composto di due moduli con finalità integrate. Da un lato il corso ha l’obiettivo di permettere agli studenti di acquisire le conoscenze teoriche e competenze pratiche sui modelli e le architetture più comuni per la rappresentazione digitale dei dati, la loro struttura ed i tipi di problemi che ciascun tipo di dati è in grado di risolvere o meno e di permettere loro di imparare ad utilizzare strumenti allo stato-dell' arte per creare flussi per estrarre ed organizzare i dati in semplici applicazioni di data analytics. Tra i contenuti trattati nel primo modulo: dati, codifiche e strutture dati (tabellari, strutturati ,testuali); processi di manipolazione dati (lettura dati; estrazione e selezione; manipolazione e trasformazioni; visualizzazioni ed esportazioni); piattaforme di Data Analytics (in particolare utilizzo di Knime Analytics platform). Dall’altro lato. Il corso mira anche a fornire strumenti utili per la comprensione dele principali funzioni dei nei flussi di dati, come la classificazione, la regressione, il clustering e la scoperta di regole associative ed a fornire una conoscenza intuitiva dell'applicazione di tali funzioni ai dati disponibili in funzione degli obiettivi delle organizzazioni e comprenderanno l'importanza di una valutazione quantitativa della loro efficacia. L'obiettivo generale di acquisire conoscenze teoriche e competenze pratiche relative a concetti e ai metodi di “data analytics” potrò essere perseguito sviluppando diverse aree tra le quali: i) comprendere le funzioni principali di data analytics nel contesto delle “data-driven decisions”, quali classificazione, regressione, clustering e scoperta di regole associative; ii) comprendere, a livello intuitivo, come applicarle le tecniche di data analytics ai - 6 - dati disponibili secondo gli obiettivi di “business”, e quanto sia importante valutare quantitativamente la loro efficacia; iii )imparare a sviluppare semplici elaborazioni utilizzando uno strumento di analisi dotato di interfaccia grafica.

Course contents

Dati, codifiche e strutture dati

  1. Dati tabellari
  2. Dati strutturati
  3. Dati testuali

Processi di manipolazione dati

  1. Lettura dati
  2. Estrazione e selezione
  3. Manipolazione e trasformazioni
  4. Visualizzazioni ed esportazioni

Piattaforme di Data Analytics

  1. Introduzione all'apprendimento dai dati
  2. Machine Learning per formulare decisioni guidate dai dati.
  3. Funzioni di base del Machine Learning
  4. Processo di scoperta dai dati. Discussione sui tipi di dato per Machine Learning.
  5. Apprendimento supervisionato e non supervisionato.
  6. Esperimenti di Machine Learning con Knime Analytics platform

Readings/Bibliography

Slide del corso e letture di materiali online indicati durante le lezioni

Teaching methods

  • Presentazione di slide
  • Quiz interattivi
  • Esercitazioni con la piattaforma scelta

Assessment methods

Realizzazione di un semplice progetto di manipolazione dati.

Teaching tools

  1. Laboratorio informatico
  2. Software di data analytics KNIME

Office hours

See the website of Fabio Vitali

See the website of Angelo Di Iorio

See the website of Claudio Sartori