Les données dans le corpus sur lequel s’appuient les recherches conduites dans le cadre du projet ont été collectés au cours de l’été 2014, dans le cadre d’une enquête à laquelle la population Suisse était appelée à faire don de ses messages pour aider la science.

Pour l’instant, les données sont traitées de sorte à ce qu’elles puissent servir de base pour la recherche linguistique. Au cours de ces travaux, le volume du corpus est susceptible de changer, par exemple si l’on découvre que plusieurs participants du même chat l’ont envoyé. Les indications suivantes sont alors très provisoires :

Nombre de chats : ~617
Nombre de messages (avec l’accord des participants) : ~750'000
Nombre de tokens : ~5.5 Mio
Nombre d’emojis : ~350'000

Le corpus sera mis à disposition de la communauté scientifique à la fin du projet, c’est-à-dire en mars 2020.

Plus d'information dans la publication "What’s up, Switzerland? A corpus-based research project in a multilingual country".

UZH

Bern

NE

UZH