Descrizione tirocinio KIParla
IL CORPUS KIPARLA
Il corpus di italiano parlato KIParla (www.kiparla.it) è stato concepito all’interno del progetto SIR (n. RBSI14IIG0) LEAdhoC, presso l’Università di Bologna al Dipartimento di Lingue, Letterature e Culture Moderne, sotto il coordinamento della Prof.ssa Caterina Mauri. Il progetto LEAdhoc si è concluso nel settembre 2019, ma la costruzione del corpus KIParla è continuata, grazie all’aggregazione di docenti e ricercatori da diverse università italiane, in primo luogo le Università di Bologna e Torino. Dal 2019 i coordinatori del Corpus KIParla sono Caterina Mauri e Silvia Ballarè (Università di Bologna) con Eugenio Goria e Massimo Cerruti (Università di Torino). Al momento, l’ampliamento del corpus KIParla è l’obiettivo principale del progetto PRIN 2022 PNRR DiverSIta (n. P2022RFR8T, 2023-2025), coordinato dalla Prof.ssa Caterina Mauri, che vede coinvolti i due atenei di Bologna e Torino.
Il corpus KIParla è una risorsa innovativa, disponibile gratuitamente per tutti coloro che lavorano sull’italiano parlato, è ricercabile tramite l’interfaccia No Sketch Engine, ed è strutturata in modo da permettere uno sviluppo incrementale e modulare nel tempo.
Attualmente, il corpus KIParla consiste di due moduli già pubblicati (KIP e ParlaTO), tre moduli in via di pubblicazione (ParlaBZ, ParlaBO e KIPasti), e quattro moduli in via di realizzazione (ParlaNA, ParlaMI, Stra-ParlaBO, Stra-ParlaTO, vd. sotto). Nel tempo, si prevede che il corpus KIParla possa crescere ulteriormente tramite collaborazioni con progetti esistenti e progetti futuri, che andranno a costituire nuovi moduli del corpus.
Moduli pubblicati
- Il primo modulo è ormai concluso, grazie anche al supporto fornito dagli studenti che hanno partecipato al precedente tirocinio LEADhoC (con cui il presente progetto è in piena continuità), e conta circa 70 h di conversazioni registrate a Bologna e Torino. La sua principale caratteristica è quella di contenere campioni di vari tipi di interazione osservabili in ambito universitario, in particolare lezioni, ricevimento studenti, esami, conversazione libera fra studenti, interviste semistrutturate a studenti. È dunque garantita una certa omogeneità degli intervistati per quanto riguarda il profilo socio-culturale (studenti e docenti), mentre si è cercato di avere la massima differenziazione possibile per quanto riguarda i tipi di interazione osservati, che si distinguono per i diversi livelli di formalità, per il carattere monologico o dialogico e per il tipo di rapporto che intercorre tra i partecipanti. Il corpus è online, ed è liberamente accessibile e ricercabile.
- Anche il secondo modulo, ParlaTO, è concluso. L’obiettivo del ParlaTO è quello di restituire un’immagine della realtà plurilingue torinese contemporanea in tutte le sue componenti. Le produzioni linguistiche presenti nel corpus sono raccolte per mezzo di interviste semi-strutturate individuali e di gruppo e hanno come argomento principale la città di Torino e delle aree circostanti. Le interazioni registrate, oltre che essere materiale utile a indagini di natura linguistica, offrono un’immagine contemporanea e dinamica del territorio che si racconta attraverso le voci degli intervistati. Il modulo è stato coordinato da Massimo Cerruti e Silvia Ballarè ed è stato realizzato grazie al finanziamento della Cassa di Risparmio di Torino.
- Il modulo KIPasti consiste in circa 42 ore di parlato spontaneo registrato durante pranzi e cene in famiglia o con amici, cioè in situazioni in cui i parlanti condividono un contesto e un background comune. Le conversazioni includono fino a 4 partecipanti (per lo più 2 o 3) estremamente differenziati per età, profilo educativo, professione e repertorio. Il modulo è stato bilanciato in base all'area geografica di raccolta dei dati (Nord, Centro, Sud e isole) e mostra quindi una grande variazione diatopica. La situazione comunicativa specifica è in questo caso caratterizzata da un registro informale, dall'assenza di un argomento predefinito e dalla presa di turno libera. Il modulo è stato coordinato da Caterina Mauri, Silvia Ballarè ed Eleonora Zucchini ed è stato realizzato in parte grazie al finanziamento del progetto PRIN 22 PNNR Diversita [https://site.unibo.it/divers-ita/it] .
- Il modulo ParlaBO è composto da circa 65 ore di interviste semi-strutturate raccolte nell'ambiente urbano della città di Bologna. Rispecchia la struttura del modulo parallelo raccolto nella città di Torino (ParlaTO). Il dataset è stato bilanciato in base all'età dei partecipanti, in modo da essere rappresentativo di diverse generazioni, e comprende parlanti con profili socioculturali e repertori diversi, rendendo conto della realtà plurilingue che ne caratterizza il tessuto sociale, dando voce a tutte le sue componenti. Le interviste semi-strutturate hanno come argomento principale la città di Bologna e delle aree circostanti, le biografie linguistiche dei cittadini bolognesi e il loro rapporto con il quartiere, il loro rapporto con le tradizioni locali. Il modulo è stato coordinato da Caterina Mauri, Silvia Ballarè ed Eleonora Zucchini ed è stato realizzato in parte grazie al finanziamento del progetto PRIN 22 PNNR Diversita.
Moduli in fase di revisione
- Il modulo ParlaBZ contiene interviste e cene registrate e trascritte a Bolzano, grazie alla collaborazione con la Prof.ssa Daniela Veronesi dell’Università di Bolzano. I dati sono già stati revisionati e anonimizzati, l’accordo inter-ateneo per il trattamento dei dati è stato firmato, quindi il modulo sarà pubblicato a breve.
- Il modulo ParlaNA comprende dati raccolti nel territorio di Napoli, in diverse situazioni comunicative, ed è coordinato dalla Prof.ssa Margherita Di Salvo (Università di Napoli Federico II). I dati sono già stati revisionati e anonimizzati, l’accordo inter-ateneo per il trattamento dei dati è stato firmato, quindi il modulo sarà pubblicato a breve.
Moduli in costruzione
- Il modulo Stra-ParlaBO sarà composto da circa 50 ore di dati orali di interviste semi-strutturate e parlato spontaneo (ad esempio conversazioni a tavola) tra parlanti con trascorso di migrazione internazionale (Speakers with International Migration Background, SIMB) che vivono nell'area urbana di Bologna. Saranno coinvolte persone provenienti da quattro comunità linguistiche (cinese, bengalese, arabo marocchina, ucraina) e i partecipanti varieranno in base al paese di origine, alla L1, all'età, al livello di istruzione, al tempo trascorso in Italia e al tipo di occupazione. Il modulo verrà realizzato dall’Unità di Ricerca di Bologna all’interno del progetto PRIN 2022 PNRR DiverSIta .
- Il modulo STRA-ParlaTO sarà composto da circa 50 ore di dati orali di interviste semi-strutturate e parlato spontaneo (ad esempio conversazioni a tavola) tra parlanti con trascorso di migrazione internazionale (Speakers with International Migration Background, SIMB) che vivono nell'area urbana di Torino. Saranno coinvolte persone provenienti da quattro comunità linguistiche e i partecipanti varieranno in base al paese di origine, alla L1, all'età, al livello di istruzione, al tempo trascorso in Italia e al tipo di occupazione. Il modulo verrà realizzato dall’Unità di Ricerca di Torino all’interno del progetto PRIN 2022 PNRR DiverSIta.
- Il modulo ParlaMI comprende interviste semi-strutturate e conversazioni a tavola registrate nel territorio di Milano. Il corpus verrà stato bilanciato in base all'età dei partecipanti e al tipo di interazione, in modo da essere rappresentativo di diverse generazioni e diverse situazioni comunicative, e comprende parlanti con profili socioculturali e repertori diversi, rendendo conto della realtà plurilingue che caratterizza il tessuto sociale di Milano, dando voce a tutte le sue componenti. Le interviste semi-strutturate hanno come argomento principale la città di Milano e delle aree circostanti, le biografie linguistiche dei cittadini milanesi, il loro rapporto con il quartiere e con le tradizioni locali. Il modulo è coordinato da Caterina Mauri e Silvia Ballarè (Università di Bologna) e Federica Da Milano (Università di Milano Bicocca). È stata attivata la convenzione per l’apertura del tirocinio agli studenti milanesi e il modulo è nelle prime fasi di costruzione.
Aspetti innovativi del corpus KIParla
I principali aspetti innovativi di rispetto alle risorse attualmente esistenti sono:
- Un sistema di metadatazione che permette, se pure in forma anonima, di risalire alle caratteristiche sociolinguistiche del parlante (età, provenienza, titolo di studio)
- L’adozione di una liberatoria che autorizza all’utilizzo e alla diffusione dei dati in forma anonima
- L’allineamento sistematico della trascrizione con l’audio delle registrazioni, in modo che gli utenti possano risalire direttamente al dato reale e non semplicemente alla trascrizione
- La natura incrementale e modulare della risorsa.
Accanto alla costruzione del corpus e all’ampliamento dei suoi moduli, il progetto prevede anche un monitoraggio costante dei dati che emergono dal tessuto plurilingue di città socialmente complesse come Bologna, Milano, Torino e Napoli. Nell’ambito dell’analisi dei dati, il progetto prevede analisi di corpora plurilingui e analisi di parlato in altri contesti europei ed extra-europei.
PROGETTO DI TIROCINIO
La natura spiccatamente applicativa delle attività necessarie alla realizzazione del corpus richiede la messa in atto di competenze altamente interdisciplinari, applicabili - oltre che nella ricerca di base in scienze umane - anche in contesti lavorativi esterni all’Università e in particolare nel settore dei servizi, della gestione di database linguistici (e non) e dell’informatica umanistica. La partecipazione al progetto costituisce dunque un’importante occasione formativa per gli studenti del Dipartimento di Lingue, Letterature e Culture Moderne, nonché degli altri Dipartimenti che aderiscono al tirocinio.
Per questa ragione, anche considerando la natura modulare, incrementale e autosostenibile del corpus KIParla, il progetto è aperto al tirocinio a tempo indeterminato agli studenti dei corsi di Laurea in Lingue e Letterature Straniere (250 ore per 9 cfu), Lingue, Mercati e Culture dell’Asia (250 ore per 9 cfu), Lettere Moderne (250 ore per 9 cfu), Language, society and communication (180 ore per 6 cfu), Lingua e cultura italiane per stranieri (180 ore per 6 cfu), Dati, metodi e modelli per le scienze linguistiche (180 ore per 6 CFU) per diverse tipologie di attività:
Raccolta dati sul campo (italiano e lingue e lingue straniere presenti nella città di Bologna)
- Mansioni principali: i tirocinanti, singolarmente o in gruppi, raccoglieranno dati di parlato, individuando situazioni comunicative adatte e soggetti da coinvolgere nelle registrazioni; saranno intervistati anche parlanti di origine straniera, in modo tale da raccogliere dati di parlato di italiano come L2 affiancato da altre lingue europee ed extraeuropee (ad es. spagnolo, varietà di arabo e cinese). Inoltre, si occuperanno di fare compilare il consenso informato e gestiranno la classificazione e l’archiviazione dei materiali raccolti.
- Obiettivi formativi: acquisizione di competenza nella realizzazione delle principali tipologie di intervista in uso nelle scienze sociali; gestione di archivi audio e video utilizzando software innovativi nel campo dell’informatica umanistica e dell’elaborazione del linguaggio naturale (NLP); gestione di database; acquisizione di conoscenze di base relative alle norme vigenti in materia di privacy (GDPR).
Trascrizione del parlato
- Mansioni principali: i tirocinanti parteciperanno alla trascrizione manuale delle interviste secondo il sistema Jefferson, applicato all’italiano e alle lingue straniere.
- Obiettivi formativi: acquisizione di competenza nelle principali convenzioni di trascrizione del parlato; utilizzo del software ELAN, impiegato anche nella produzione di sottotitoli; trascrizione di varietà parlate di lingue europee ed extra-europee.
Preparazione dei dati per il trattamento automatico
- Mansioni principali: i tirocinanti predisporranno le interviste trascritte per l’inserimento sulla piattaforma NoSketch Engine, si occuperanno della codifica dei dati in formato XML, parteciperanno alla creazione di una treebank gold sui dati del KIParla, idealmente da far confluire nelle treebank UD per l'italiano. Se necessario si relazioneranno con il personale tecnico per il caricamento dei dati.
- Obiettivi formativi: conoscenza dei principali corpora di parlato attualmente consultabili; familiarizzazione con il sistema XML e il sistema di codifica di dati del parlato; conoscenza delle Universal Dependencies; rudimenti di programmazione in python; conoscenza dei principali tipi di query.
Focus sulle lingue straniere presenti nella città di Bologna, Torino e Milano: analisi approfondite di singole lingue
- Mansioni principali: i tirocinanti effettueranno analisi approfondite di singole lingue, che varieranno in relazione alle loro competenze e alle lingue di migrazione presenti nei dati; ricorreranno a diverse risorse linguistiche e corpora di parlato per le lingue in questione, sia per monitorare l’uso di specifiche costruzioni, che per individuare fenomeni di contatto nel sistema e nel discorso.
- Si prevede un interesse particolare per le lingue più rappresentate nei contesti di migrazione di Torino e Bologna, anche come lingue veicolari (es. spagnolo, francese, cinese, arabo, russo, ucraino, bengalese), senza che questo precluda, tuttavia, l’inclusione di lingue ulteriori.
- Il compito prevede la collaborazione sistematica fra tirocinanti con competenze diverse. Per questo motivo si invita la partecipazione di studenti specializzati sia in lingue europee, sia in lingue dell’Asia e dell’Africa.
- Obiettivi formativi: i tirocinanti acquisiranno competenza nei principali strumenti di analisi specifici per singole lingue, quali corpora e archivi di parlato, impareranno a formulare autonomamente queries di diversa complessità.
Analisi della variazione linguistica
· Mansioni principali: i tirocinanti effettueranno analisi approfondite su singoli fenomeni linguistici suscettibili a variazione nel parlato.
· È possibile considerare fenomeni appartenenti a tutti i livelli di strutturazione linguistica, anche facendo riferimento ad aspetti di natura extralinguistica (relativi alla situazione interazionale in cui è avvenuto lo scambio e/o alla caratterizzazione socio-geografica dei parlanti).
· Obiettivi formativi: i tirocinanti impareranno a formulare interrogativi di ricerca relativi alla variazione linguistica, acquisiranno familiarità nell’impiego dei principali strumenti di analisi (tipicamente, corpora) e apprenderanno metodi per la creazione di datafile.
Durante il tirocinio gli studenti saranno formati da un tutor (membro del progetto KIParla) per lo svolgimento delle seguenti attività:
- Realizzazione dei principali tipi di intervista in uso nelle scienze sociali
- Realizzazione di registrazioni con registratore professionale e gestione dei file audio
- Utilizzo dei principali software per la trascrizione e l’analisi del parlato
- Creazione di un sistema di annotazione
- Costituzione e gestione dei corpora
- Ricerche specifiche all’interno di corpora di lingue parlate europee e extra-europee
La formazione dei tirocinanti si terrà presso il Dipartimento LILEC, via Cartoleria 5, Bologna, presso il Laboratorio di linguistica sperimentale – via Carati 14/b, Bologna e attraverso la piattaforma Teams, che verrà usata settimanalmente per le riunioni del tirocinio.
A ogni tirocinante verranno assegnati dei compiti relativi a uno o più degli ambiti sopra descritti, sulla base di eventuali competenze pregresse, degli interessi specifici del candidato e delle esigenze del progetto al momento dell’inizio del tirocinio. I tirocinanti potranno svolgere parte del lavoro autonomamente con il proprio computer e saranno tenuti a un resoconto periodico della loro attività, nell’ottica di un dialogo costante tra tirocinante e tutor. Il progetto fornirà i registratori e i supporti di memoria necessari alla realizzazione delle registrazioni.
Risvolti applicativi del tirocinio
Il tirocinio permetterà di acquisire competenze di carattere altamente interdisciplinare e applicativo, che potranno essere utilmente impiegate nei seguenti ambiti lavorativi:
- Traduzione per il doppiaggio e sottotitolatura
- Realizzazione di sondaggi e interviste per agenzie private
- Utilizzo di dati linguistici a scopo commerciale (data mining, sentiment analysis, …)
- Trattamento automatico di dati linguistici
- Costruzione e gestione di database linguistici
- Conoscenza approfondita e utilizzo di software nell’ambito delle digital humanities
Requisiti di ingresso e referenti per il tirocinio
Gli studenti dovranno aver già sostenuto e superato almeno un esame di Linguistica generale.
La responsabile del tirocinio è la Prof.ssa Caterina Mauri (caterina.mauri@unibo.it). Le referenti del tirocinio sono la Dott.ssa Silvia Ballarè (silvia.ballare@unibo.it), la Prof.ssa Caterina Mauri (caterina.mauri@unibo.it) e la Dott.ssa Eleonora Zucchini (eleonora.zucchini2@unibo.it). Partecipano alle attività del tirocinio anche la Prof.ssa Claudia Borghetti (claudia.borghetti@unibo.it) e la Dott.ssa Ludovica Pannitto (ludovica.pannitto@unibo.it), che seguirà gli aspetti computazionali. Eventuali ulteriori collaborazioni saranno possibili su richiesta.
IMPORTANTE: consultare la Procedura di attivazione e selezione del Tirocinio KIParla.