La collezione di chat autentiche Whatsapp fornisce la base per la nostra ricerca e quindi per l’intero progetto. I dati sono stati raccolti durante l’estate 2014 quando è stato chiesto alla popolazione svizzera di donare chat WhatsApp alla scienza.

Attualmente stiamo provvedendo all’aggregazione di un corpus che sia utilizzabile per la ricerca linguistica. Nel corso di questo processo la dimensione del corpus verrà adattata in quanto in alcuni casi due interlocutori hanno donato la stessa chat. I numeri che presentiamo qui sono quindi estremamente provvisori:

  • Numero di chat: ~617
  • Numero di messaggi (autorizzati all’uso): ~750'000
  • Numero di token: ~5.5 Mio
  • Numero di emojis: ~350'000

Il corpus sarà disponibile ad altri ricercatori alla fine del progetto, ovvero a partire damarzo 2020.

Piu d'informatione sul corpus nell'articolo "What’s up, Switzerland? A corpus-based research project in a multilingual country".

UZH

Bern

NE

UZH