Willkommen zum Blockseminar “Korpuslinguistik in der historischen Sprachwissenschaft des Deutschen”! Hier finden Sie die Materialien für das Seminar sowie einige (hoffentlich) nützliche Links.
Diese Seite beinhaltet die im Kurs verwendeten Materialien sowie weiteres Material, das für die weitergehende Beschäftigung mit Korpuslinguistik nützlich sein kann. Wenn Sie diese Seite auf hartmast.github.io/korpling-siegen sehen, dann können Sie sich diese Seite vorstellen wie die “Außenfassade” zu einem kleinen Lädchen, das allerlei Werkzeuge für die Korpuslinguistik verkauft (oder besser: verschenkt, denn alles, was hier zur Verfügung gestellt wird, ist natürlich kostenlos).
Einige Tutorials und Materialien sind direkt auf der Seite verlinkt, die Sie gerade lesen. Einige Beispiel-Datensätze, die wir im Kurs verwenden, sind jedoch im “Laden” versteckt. Der “Laden” ist das Github-Repository, zu dem diese Seite gehört. Wenn Sie das gesamte Repository sehen wollen, können Sie links auf “View on GitHub” klicken. Sie können auch einfach das gesamte Repository mit Klick auf einen der Download-Buttons herunterladen und haben dann gleich alle Materialien auf Ihrem Rechner.
Leitfaden zum Verfassen einer sprachwissenschaftlichen Hausarbeit
Präsentation 01: Wissenschaftstheorie
Präsentation 02: Software, reguläre Ausdrücke; Korpustheorie
Präsentation 03: Korpora des Deutschen; Fallbeispiele
Präsentation 05: Korpora und Semantik
Präsentation 06: Basiswissen Statistik
Diese Tutorials stammen zum Teil aus dem Begleitmaterial zu meinem Buch “Deutsche Sprachgeschichte. Grundzüge und Methoden”. An einigen wenigen Stellen wird auf das Buch Bezug genommen; sie sind jedoch so konzipiert, dass man sie unabhängig von dem Buch lesen und benutzen kann.
Einen Schnelleinstieg ins korpusbasierte Arbeiten am Beispiel von DWDS bietet dieses Tutorial.
Außerdem: Wacky-Tutorial
Für den Kurs brauchen Sie im Grunde nichts zu installieren, da alle Programme bereits auf den Rechnern im Sprachlabor vorinstalliert sind. Für den Fall, dass Sie zu Hause mit den Materialien arbeiten möchten, sind hier jedoch die einschlägigen (kostenlosen) Programme verlinkt.
Notepad++ Texteditor (nur Windows). Für Mac empfehle ich BBEdit. Nach Ablauf einer Testphase kann man das Programm mit eingeschränktem Funktionsumfang, der aber für unsere Bedürfnisse voll und ganz ausreicht, unbegrenzt kostenlos nutzen. Für Linux gibt es z.B. Notepadqq. Fortgeschrittene können alternativ oder ergänzend auch auf einen Code-Editor wie Atom oder VSCode zurückgreifen. Für AnfängerInnen rate ich jedoch davon ab, weil die Bedienung z.T. doch deutlich umständlicher ist als bei den o.g. Texteditoren.
R Statistik-Software und Programmiersprache, deren Benutzung in der quantitativen Linguistik mittlerweile zum Standard geworden ist.
RStudio Integrated Developer Environment (kurz: IDE) für R. Wenn Sie R nicht nur mit Hilfe einer Kommandozeile bedienen wollen - was auf die Dauer extrem umständlich ist - ist dieses Programm die derzeit m.E. beste Lösung.
LibreOffice Das LibreOffice-Paket ist eine kostenlose Alternative zu Microsoft Office, wobei insbesondere das Tabellenkalkulationsprogramm Calc einige Pluspunkte gegenüber Excel aufweist, v.a. was den Support von Unicode-Sonderzeichen angeht.
AntConc Ein einfacher Concordancer für Rohtext-Dateien; ideal geeignet, wenn Sie Ihr erstes eigenes Korpus aus einfachen, unannotierten Texten erstellen.
GATE General Architecture for Text Engineering: Ein sehr praktisches und vergleichsweise einfach zu bedienendes Programm, in dem man Texte in einer grafischen Benutzeroberfläche annotieren kann. Output im XML-Format. Eher für die Korpuserstellung als für die Korpusauswertung relevant; aber es kann nicht schaden, einmal davon gehört zu haben :-)
Referenzkorpus Altdeutsch (aka Deutsch Diachron Digital)
Referenzkorpus Mittelhochdeutsch (REM)
Die beiden Referenzkorpora enthalten alle überlieferten Texte des Althochdeutschen und Altsächsischen sowie eine mehr oder weniger repräsentative Auswahl mittelhochdeutscher Texte. REM besteht aus zwei Subkorpora: MiGraKo ist ein ausgewogenes Korpus, das als Grundlage für die Mittelhochdeutsche Grammatik diente; das als REM oder Referenzkorpus Mittelhochdeutsch im engeren Sinne bezeichnete Subkorpus beinhaltet zusätzliche Texte. Die Auwahl zwischen MiGraKo, REM oder “All” (= beide Subkorpora) lässt sich oberhalb der Textauswahl im Fenster unten links treffen.
Die Referenzkorpora werden in absehbarer Zeit ergänzt durch das Referenzkorpus Mittelniederdeutsch und das Referenzkorpus Frühneuhochdeutsch.
Bonner Frühneuhochdeutschkorpus
Ein relativ kleines Korpus fürs Frühneuhochdeutsche, über ANNIS verfügbar. Vorsicht: Einige Annotationsebenen existieren doppelt, einmal im Namespace “default_ns”, einmal im Namespace “anno”. Das führt dazu, dass Resultate doppelt gefunden werden. Um das zu vermeiden, empfiehlt es sich, der Suche die Angabe des Namespace voranzustellen, z.B. default_ns:typ="verb"
.
Diachrones Korpus (ca. 1500-1900) mit ca. 154 Millionen laufenden Wortformen. Wegen der besseren Exportmöglichkeiten empfehle ich, zum Durchsuchen DWDS (s.u.) zu verwenden.
Digitales Wörterbuch der deutschen Sprache
Zugang zu einer ganzen Reihe von Referenz- und Zeitungskorpora, darunter
und mehr. Hilfe zur Suche gibt es hier. Ein Überblick über die Korpora findet sich hier.
Das Deutsche Referenzkorpus (DeReKo) ist über die Schnittstelle COSMAS II zugänglich (Registrierung erforderlich). Neben dem umfangreichen W-Archiv enthält es auch getaggte Korpora (TAGGED-C / TAGGED-T), ein Korpus gesprochener Sprache sowie Korpora mit Wikipedia-Artikeln und -Diskussionen. (Einmalige kostenlose Anmeldung erforderlich.)
WaCky - The Web-As-Corpus Kool Yinitiative
Korpus mit Internetdaten, hier frei und ohne Anmeldung zugänglich. (Allerdings hatte das Interface im letzten Jahr einige Bugs, von denen ich nicht weiß, ob sie inzwischen behoben sind. Wenn nicht, können einige - gerade komplexere - Suchanfragen zu Fehlermeldungen führen.)
Sammlung von Internet-Korpora mit umfangreicher automatischer Annotation. Registrierung notwendig; für Studierende derzeit nicht zugänglich. Da die Korpora aber derzeit breit genutzt werden, sollte man einmal davon gehört haben…
Digitales Begleitmaterial zu Hartmann (2018)
Noah Bubenhofer: Einführung in die Korpuslinguistik
Ausführlicher Überblick über reguläre Ausdrücke
LEA: Linguistic Excercises with Annotation Tools - Sammlung von Annotationsaufgaben für Studierende (und Lehrende) von Fabian Barteld und Johanna Flick, enthält u.a. hilfreiche Materialien zur Arbeit mit CSV-Dateien.