Unsere Sammlung, bestehend aus authentischen WhatsApp Mitteilungen, dient als Basis für unsere Forschung und somit für das ganze Projekt. Sie wurde im Sommer 2014 erstellt, als wir die Schweizer Bevölkerung aufforderten, ihre WhatsApp Mitteilungen der Forschung zu spenden.

Im Moment werden die gesammelten Daten so verarbeitet, dass sie als Basis für linguistische Forschung dienen können. Im Laufe dieser Arbeiten wird sich die Grösse der Datensammlung laufend ändern, z.B. weil mehrere Teilnehmende einer Chat-Kommunikation diese mehrmals eingeschickt haben. Die folgenden Daten sind also sehr provisorisch:

Anzahl Chats: ~617
Anzahl Messages (die verwendet werden dürfen): ~750'000
Anzahl Tokens: ~5.5 Mio
Anzahl Emojis: ~350'000

Das Korpus wird für Forschende ausserhalb des Projektes erst zum Projektende (März 2020) zur Verfügung stehen.

Mehr Informationen zum Korpus finden sich im Artikel "What’s up, Switzerland? A corpus-based research project in a multilingual country".

UZH

Bern

NE

UZH