87947 - STATISTICAL DATA ANALYSIS FOR APPLIED PHYSICS

Anno Accademico 2024/2025

  • Docente: Luca Clissa
  • Crediti formativi: 6
  • SSD: FIS/07
  • Lingua di insegnamento: Inglese

Conoscenze e abilità da conseguire

At the end of the course the student will be acquainted with the main statistical concepts used in Physics. After a review of the fundamentals of probability theory, parametric inferential statistics will be introduced, from point estimates and confidence intervals to hypothesis testing and goodness-of-fit. Each item will be addressed both in the Bayesian and frequentist approaches. Dedicated practical sessions will allow the student to become familiar with these conceptual tools by studying applications in Applied Physics.

Contenuti

The structure of the course is the following.

Per tutti:

  • Modulo 1, teoria (tenuto da L. Clissa)

Solo Applied Physics Students:

  • Modulo 2a, esercizi e complementi (tenuto da C. Sala)

Solo Nuclear and Subnuclear Physics Students:

  • Modulo 2b, esercizi e complementi (tenuto da M. Negrini)
  • Modulo 3b, laboratorio (tenuto da G. Sirri)

 

Programma Modulo 1

1. Concetti di Probabilità

  • Definizioni: assiomatica, combinatoria, frequentista e soggettivista
  • Probabilità condizionata
  • Indipendenza statistica
  • Teorema di Bayes

2. Variabili Aleatorie e Distribuzioni

  • Funzione densità/massa di probabilità, funzione cumulata di probabilità
  • Distribuzioni multivariate
  • Esempi di distribuzioni: binomiale, multinomiale, Poisson, esponenziale, normale, normale multivariata, chi-quadrato, Breit-Wigner, Landau
  • Densità marginali e condizionali
  • Funzioni di variabili aleatorie
  • Funzione Caratteristica e momenti distribuzione: valore atteso, varianza e covarianza
  • Teorema del Limite Centrale
  • Propagazione degli errori con variabili correlate

3. Inferenza Statistica

  • Informazione di Fisher
  • Statistiche campionarie, statistica-test e statistiche sufficienti
  • Stimatori media e varianza
  • Metodo della massima verosimiglianza
  • Stima multi-parametrica con incertezza e correlazioni
  • Stimatori bayesiani, priors di Jeffreys
  • Metodo dei minimi quadrati

4. Metodo Monte Carlo

  • Criteri di convergenza
  • Legge dei grandi numeri

5. Test d'ipotesi

  • Ipotesi semplici
  • Efficienza e potenza del test
  • Lemma di Neyman-Pearson
  • Test lineare, discriminante di Fisher
  • Significatività statistica, p-values, Look-Elsewhere Effect
  • Metodo chi-quadrato per i test di ipotesi

6. Intervalli di Confidenza

  • Metodi esatti: casi gaussiano e poissoniano
  • Approccio unificato
  • Metodo bayesiano
  • Metodo CL
  • Errori Sistematici e Parametri Nuisance
  • Proprietà asintotiche

7. Metodi multivariati

  • Neural Networks, Boosted Decision Tree

 

Programma del Modulo 2a

Introduzione a R e RStudio. Generazione di variabili casuali e distribuzioni di probabilità. Legge dei grandi numeri. Teorema del limite centrale. Test di ipotesi. Test t di Student. Test F di Fisher. Valore p: significatività statistica e potenza. Stima della massima verosimiglianza. Regressione lineare. Correlazione. Analisi della varianza. Modelli lineari generalizzati. Regressione lineare multivariata. Multicollinearità. Penalizzazioni Lasso e Ridge.

 

Programma del Modulo 2b

Esercizi e complementi di metodi Monte Carlo e Unfolding.

 

Programma del Modulo 3b

Elementi di C++ e ROOT. Spazio di lavoro RooFit, Factory, modelli compositi, modelli multidimensionali. Uso di RooStats per calcolare gli intervalli di confidenza, Profile Likelihood, Feldman-Cousins, intervalli bayesiani, con e senza parametri di disturbo. Uso di TMVA come classificatore, descrizione di TMVAGui.

Testi/Bibliografia

Modulo 1

  • Glen Cowan, Statistical Data Analysis, Oxford Univ. Press, 1998
  • (opzionale, per maggiore approfondimento statistico) Hastie, Trevor, et al. The elements of statistical learning: data mining, inference, and prediction. Vol. 2. New York: springer, 2009.

Modulo 2a:

  • Data Analysis and Graphics using R -an Example-based approach." by John Maindonald and W. John Braun (Cambridge University Press, 2003)
  • An Introduction to Statistical Learning with Applications in R." by Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani (Springer, 2013)

Moduli 2b e 3b:

  • Glen Cowan, Statistical Data Analysis, Oxford Univ. Press, 1998
  • O. Behnke et al., Data Analysis in High Energy Physics: A Practical Guide to Statistical Methods, Wiley, 2013
  • A. G. Frodesen, O. Skjeggestad, H. Toft, Probability and Statistics in Particle Physics, Universitetforlaget, 1979
  • G. D'Agostini, Bayesian reasoning in data analysis - A critical introduction, World Scientific Publishing, 2003

Metodi didattici

Lezioni frontali e sessioni di laboratorio con utilizzo di applicativi per la risoluzione di problemi pratici.

In considerazione della tipologia di attività e dei metodi didattici adottati, la frequenza di questa attività formativa richiede a tutti gli studenti che frequenteranno il moduli 2a e 3b la preventiva partecipazione ai moduli 1 e 2 di formazione sulla sicurezza nei luoghi di studio (in modalità e-learning).

Modalità di verifica e valutazione dell'apprendimento

L'esame consiste in una prova scritta, della durata di due ore, così strutturata:

  1. tre domande di teoria
  2. un esercizio
  3. un quesito per la parte di laboratorio, in cui si chiede di commentare un blocco di codice

Le prove potranno essere diversificate a seconda del canale (moduli 2a vs moduli 2b+3b).

Per la lode, è necessario aver ottenuto 30/30 allo scritto e sostenere una prova orale aggiuntiva.

Importante: per poter sostenere lo scritto è necessario aver completato e consegnato al docente le prove pratiche di laboratorio, che non influiscono comunque sul voto finale.

Strumenti a supporto della didattica

Le slides presentate a lezione sono disponibili su Virtuale. In alternativa scrivere un email al docente di riferimento.

Orario di ricevimento

Consulta il sito web di Luca Clissa

Consulta il sito web di Claudia Sala