Korpuslinguistik in der historischen Sprachwissenschaft des Deutschen

Willkommen zum Blockseminar “Korpuslinguistik in der historischen Sprachwissenschaft des Deutschen”! Hier finden Sie die Materialien für das Seminar sowie einige (hoffentlich) nützliche Links.

Wie man dieses Material benutzt

Diese Seite beinhaltet die im Kurs verwendeten Materialien sowie weiteres Material, das für die weitergehende Beschäftigung mit Korpuslinguistik nützlich sein kann. Wenn Sie diese Seite auf hartmast.github.io/korpling-siegen sehen, dann können Sie sich diese Seite vorstellen wie die “Außenfassade” zu einem kleinen Lädchen, das allerlei Werkzeuge für die Korpuslinguistik verkauft (oder besser: verschenkt, denn alles, was hier zur Verfügung gestellt wird, ist natürlich kostenlos).

Einige Tutorials und Materialien sind direkt auf der Seite verlinkt, die Sie gerade lesen. Einige Beispiel-Datensätze, die wir im Kurs verwenden, sind jedoch im “Laden” versteckt. Der “Laden” ist das Github-Repository, zu dem diese Seite gehört. Wenn Sie das gesamte Repository sehen wollen, können Sie links auf “View on GitHub” klicken. Sie können auch einfach das gesamte Repository mit Klick auf einen der Download-Buttons herunterladen und haben dann gleich alle Materialien auf Ihrem Rechner.

Kursmaterialien

Seminarplan

Leitfaden zum Verfassen einer sprachwissenschaftlichen Hausarbeit

Präsentationen

Präsentation 01: Wissenschaftstheorie

Präsentation 02: Software, reguläre Ausdrücke; Korpustheorie

Präsentation 03: Korpora des Deutschen; Fallbeispiele

Präsentation 04: Webkorpora

Präsentation 05: Korpora und Semantik

Präsentation 06: Basiswissen Statistik

Informationen zu Hausarbeiten

Tutorials

Diese Tutorials stammen zum Teil aus dem Begleitmaterial zu meinem Buch “Deutsche Sprachgeschichte. Grundzüge und Methoden”. An einigen wenigen Stellen wird auf das Buch Bezug genommen; sie sind jedoch so konzipiert, dass man sie unabhängig von dem Buch lesen und benutzen kann.

Schnelleinstieg

Einen Schnelleinstieg ins korpusbasierte Arbeiten am Beispiel von DWDS bietet dieses Tutorial.

Vom Korpus zur Konkordanz

Grundlegendes: Software, Datenstrukturen, Encoding und das geheime Leben meines Computers (inklusive Überblick zu den wichtigsten regulären Ausdrücken)
Arbeitsschritte: Vom Korpus zur Konkordanz zur Analyse
Tutorial: ANNIS (Referenzkorpora Altdeutsch, Mittelhochdeutsch, Bonner Frühneuhochdeutschkorpus, …)
Tutorial: COSMAS II (Deutsches Referenzkorpus)
Tutorial: Bonner Frühneuhochdeutschkorpus (altes Interface) (R-Skript im Ordner FnhdC auf GitHub)

Außerdem: Wacky-Tutorial

Von der Konkordanz zur Analyse

Tutorial: Tabellen und Grafiken mit Excel und Calc (Material dazu im Ordner Excel_Einstieg auf GitHub)
Tutorial: Schnelleinstieg in R (Material dazu im Ordner R_Einstieg auf GitHub)
Tutorial: R-Paket „concordances“

Software

Für den Kurs brauchen Sie im Grunde nichts zu installieren, da alle Programme bereits auf den Rechnern im Sprachlabor vorinstalliert sind. Für den Fall, dass Sie zu Hause mit den Materialien arbeiten möchten, sind hier jedoch die einschlägigen (kostenlosen) Programme verlinkt.

Notepad++ Texteditor (nur Windows). Für Mac empfehle ich BBEdit. Nach Ablauf einer Testphase kann man das Programm mit eingeschränktem Funktionsumfang, der aber für unsere Bedürfnisse voll und ganz ausreicht, unbegrenzt kostenlos nutzen. Für Linux gibt es z.B. Notepadqq. Fortgeschrittene können alternativ oder ergänzend auch auf einen Code-Editor wie Atom oder VSCode zurückgreifen. Für AnfängerInnen rate ich jedoch davon ab, weil die Bedienung z.T. doch deutlich umständlicher ist als bei den o.g. Texteditoren.

R Statistik-Software und Programmiersprache, deren Benutzung in der quantitativen Linguistik mittlerweile zum Standard geworden ist.

RStudio Integrated Developer Environment (kurz: IDE) für R. Wenn Sie R nicht nur mit Hilfe einer Kommandozeile bedienen wollen - was auf die Dauer extrem umständlich ist - ist dieses Programm die derzeit m.E. beste Lösung.

LibreOffice Das LibreOffice-Paket ist eine kostenlose Alternative zu Microsoft Office, wobei insbesondere das Tabellenkalkulationsprogramm Calc einige Pluspunkte gegenüber Excel aufweist, v.a. was den Support von Unicode-Sonderzeichen angeht.

AntConc Ein einfacher Concordancer für Rohtext-Dateien; ideal geeignet, wenn Sie Ihr erstes eigenes Korpus aus einfachen, unannotierten Texten erstellen.

GATE General Architecture for Text Engineering: Ein sehr praktisches und vergleichsweise einfach zu bedienendes Programm, in dem man Texte in einer grafischen Benutzeroberfläche annotieren kann. Output im XML-Format. Eher für die Korpuserstellung als für die Korpusauswertung relevant; aber es kann nicht schaden, einmal davon gehört zu haben :-)

Korpora

Referenzkorpus Altdeutsch (aka Deutsch Diachron Digital)

Referenzkorpus Mittelhochdeutsch (REM)

Die beiden Referenzkorpora enthalten alle überlieferten Texte des Althochdeutschen und Altsächsischen sowie eine mehr oder weniger repräsentative Auswahl mittelhochdeutscher Texte. REM besteht aus zwei Subkorpora: MiGraKo ist ein ausgewogenes Korpus, das als Grundlage für die Mittelhochdeutsche Grammatik diente; das als REM oder Referenzkorpus Mittelhochdeutsch im engeren Sinne bezeichnete Subkorpus beinhaltet zusätzliche Texte. Die Auwahl zwischen MiGraKo, REM oder “All” (= beide Subkorpora) lässt sich oberhalb der Textauswahl im Fenster unten links treffen.

Die Referenzkorpora werden in absehbarer Zeit ergänzt durch das Referenzkorpus Mittelniederdeutsch und das Referenzkorpus Frühneuhochdeutsch.

Bonner Frühneuhochdeutschkorpus

Ein relativ kleines Korpus fürs Frühneuhochdeutsche, über ANNIS verfügbar. Vorsicht: Einige Annotationsebenen existieren doppelt, einmal im Namespace “default_ns”, einmal im Namespace “anno”. Das führt dazu, dass Resultate doppelt gefunden werden. Um das zu vermeiden, empfiehlt es sich, der Suche die Angabe des Namespace voranzustellen, z.B. default_ns:typ=‎"verb‎".

Deutsches Textarchiv

Diachrones Korpus (ca. 1500-1900) mit ca. 154 Millionen laufenden Wortformen. Wegen der besseren Exportmöglichkeiten empfehle ich, zum Durchsuchen DWDS (s.u.) zu verwenden.

Digitales Wörterbuch der deutschen Sprache

Zugang zu einer ganzen Reihe von Referenz- und Zeitungskorpora, darunter

Deutsches Textarchiv
ZEIT-Korpus
DWDS-Kernkorpus des 20. Jahrhunderts
DWDS-Kernkorpus des 21. Jahrhunderts
Filmuntertitel

und mehr. Hilfe zur Suche gibt es hier. Ein Überblick über die Korpora findet sich hier.

DeReKo / COSMAS II

Das Deutsche Referenzkorpus (DeReKo) ist über die Schnittstelle COSMAS II zugänglich (Registrierung erforderlich). Neben dem umfangreichen W-Archiv enthält es auch getaggte Korpora (TAGGED-C / TAGGED-T), ein Korpus gesprochener Sprache sowie Korpora mit Wikipedia-Artikeln und -Diskussionen. (Einmalige kostenlose Anmeldung erforderlich.)

WaCky - The Web-As-Corpus Kool Yinitiative

Korpus mit Internetdaten, hier frei und ohne Anmeldung zugänglich. (Allerdings hatte das Interface im letzten Jahr einige Bugs, von denen ich nicht weiß, ob sie inzwischen behoben sind. Wenn nicht, können einige - gerade komplexere - Suchanfragen zu Fehlermeldungen führen.)

Corpora from the Web (COW)

Sammlung von Internet-Korpora mit umfangreicher automatischer Annotation. Registrierung notwendig; für Studierende derzeit nicht zugänglich. Da die Korpora aber derzeit breit genutzt werden, sollte man einmal davon gehört haben…

Weitere Links

Digitales Begleitmaterial zu Hartmann (2018)

Noah Bubenhofer: Einführung in die Korpuslinguistik

Ausführlicher Überblick über reguläre Ausdrücke

LEA: Linguistic Excercises with Annotation Tools - Sammlung von Annotationsaufgaben für Studierende (und Lehrende) von Fabian Barteld und Johanna Flick, enthält u.a. hilfreiche Materialien zur Arbeit mit CSV-Dateien.