Hier finden Sie die Betaversion des Klosterfrauenkorpus, das auf der Edition von Nolting (2010) beruht. Bitte beachten Sie, dass diese Version ausschließlich über automatische Annotationen verfügt, die mit CAB (Jurish 2012) erstellt wurden. Eine manuelle Nachkorrektur der bestehenden Annotationen sowie das Hinzufügen weiterer Annotationsebenen ist für die nahe Zukunft geplant.
Über die obigen Links haben Sie Zugriff auf den (derzeit noch minimalistischen) TEI-Header, die Rohtexte im .txt-Format, eine erste Betaversion im relANNIS-Format zur Verwendung mit einer lokalen Installation von ANNIS (Krause & Zeldes 2016) sowie die Dateien im GATE-XML-Format für das Annotationsprogramm GATE, das für die – weitestgehend noch ausstehende – manuelle Annotation verwendet wird.
Wir danken dem Waxmann-Verlag für die Genehmigung zur korpuslinguistischen Aufbereitung und Zugänglichmachung der Texte. Bei Verwendung des Korpus zitieren Sie bitte die Edition von Nolting (2010) [Bibtex]. Für das Korpus selbst schlagen wir folgende Zitierweise vor:
Nowak, Jessica, Stefan Hartmann & Uta Nolting. 2019. Klosterfrauenkorpus. Ein annotiertes Textkorpus zum Sprachgebrauch süddeutscher Klosterfrauen des 17. Jahrhunderts. Version 0.1 (Betaversion). Universität Mainz, Universität Düsseldorf. doi 10.5281/zenodo.2583198.[Bibtex]
(aus Nolting 2010: 50f.)
Chronikalische Texte
Juliana Ernst (Kloster St. Klara (Bickenkloster) in Villingen): (unvollständige) Chronik der Kriegsereignisse und -folgen rund um Villingen und das Bickenkloster
Umfang: 11 Blatt (ca. 6.650 Wortformen)
Berichtzeit: 1631-1633 (hier bricht die Chronik mitten im Satz ab)
Abfassungszeit: 1638
Verbleib der Handschrift: Original galt lange als verschollen und ist erst kurz vor Erscheinen von Nolting (2010) im Archiv des Bickenklosters wieder aufgefunden worden.
Maria Anna Junius (Kloster zum Heiligen Grab bei Bamberg) Chronik der Kriegsereignisse und -folgen rund um Bamberg und das Kloster zum Heiligen Grab
Umfang: 216 Druckseiten (ca. 50.000 Wortformen)
Abfassungszeit: ab 1633
Verbleib der Handschrift: Original verschollen
Clara Staiger (Kloster Mariastein bei Eichstätt): Chronikalische Aufzeichnungen während der Amtszeit Staigers als Priorin
Umfang: 552 Seiten (ca. 90.000 Wortformen)
Berichtzeit: (1588)/1632-1654 (zwei Drittel entfallen auf die Jahre 1632-1639)
Abfassungszeit: ab 1632
Verbleib der Handschrift: verwahrt in der Bayerischen Staatsbibliothek in
München
unbekannte Klosterfrau (Kloster Frauenwörth im Chiemsee): Auszug aus den chronikalischen Aufzeichnungen während der Amtszeit der Äbtissin Maria Magdalena Haidenbucher (Der Text wurde mindestens von sechs
Schreiberinnen angefertigt, von denen hier die Schreiberinnenhand ausgewählt worden ist, die die Jahre 1629- 1649 aufgezeichnet hat.)
Umfang: 145 Blatt (ca. 30.000 Wortformen)
Berichtzeit: 1629-1649
Abfassungszeit: ab 1629
Verbleib der Handschrift: verwahrt in der Bayerischen Staatsbibliothek in München
Brieftexte
Juliana Ernst: Brief an den Bürgermeister und Rat der Stadt Villingen
Umfang: 1 Blatt (ca. 319 Wortformen)
Abfassungszeit: 1656
Verbleib der Handschrift: verwahrt im Archiv des Bickenklosters
Clara Staiger: Brief an den Fürstbischof Johann Christoph von Westerstetten
Umfang: 1 Blatt (ca. 285 Wortformen)
Abfassungszeit: 1633
Verbleib der Handschrift: verwahrt im Diözesanarchiv in Eichstätt
Clara Staiger: Brief an den Generalvikar Georg Ludwig Adam
Umfang: 1 Blatt (ca. 459 Wortformen)
Abfassungszeit: 1633
Verbleib der Handschrift: verwahrt im Diözesanarchiv in Eichstätt
Clara Staiger: Brief an die Schaffnerin des Klosters, Paula von Werdenstain
Umfang: 1 Blatt (ca. 369 Wortformen)
Abfassungszeit: undatiert (vermutlich 1635)
Verbleib der Handschrift: verwahrt im Diözesanarchiv in Eichstätt
Bereits vorhandene Annotationsebenen
dipl: Originaltext der Edition.
norm: Zum Neuhochdeutschen hin normalisierter Text (via CAB).
POS: Wortartenannotation (automatisch via CAB, derzeit noch ohne manuelle Nachkorrektur).
lemma: Lemmatisierung (automatisch via CAB, derzeit noch ohne manuelle Nachkorrektur).
supplied: Stellen, die nicht in der jeweiligen Handschrift enthalten sind, sondern von der Editorin bzw. den KorpuserstellerInnen hinzugefügt wurden, sind auf der supplied-Ebene mit "added-editors" markiert. Dies betrifft zum einen die Auflösung von Abkürzungen wie S[chwester], zum anderen hinzugefügte Überschriften und Seitenzählungen.
Noch nicht implementierte Annotationsebenen und Arbeitsschritte (in Auswahl)
pb: Markup für Seitenumbrüche.
page: Markup für die Spannen der einzelnen Seiten.
del: Gelöschtes Textmaterial.
Wiedereinfügen der (derzeit aufgelösten) Silbentrennung auf der dipl-Ebene.
Wie oben bereits erwähnt, dient diese Version des Korpus nur Demonstrationszwecken. Für den tatsächlichen Einsatz ist sie nur bei genauer manueller Prüfung der Ergebnisse geeignet. Insbesondere sind die automatischen Annotationen noch sehr fehlerbehaftet. Weiterhin ist Folgendes zu beachten:
Die Texte enthalten teilweise gelöschtes (durchgestrichenes) Material, das noch nicht durch entsprechendes Markup ausgezeichnet ist. Hierfür muss derzeit noch die Edition (PDF) konsultiert werden.
In der ANNIS-Version sind Whitespace-Tokens (Leerzeichen) als eigene Tokens gezählt. Das bedeutet, dass die direkten ANNIS-Abstandsoperatoren . und ^ hier nicht funktionieren, da das direkt folgende bzw. direkt vorangehende Token (fast) immer ein Leerzeichen ist. Wir arbeiten daran, dieses Problem zu beheben. In der Zwischenzeit kann man sich damit behelfen, einfach nach größeren Abständen zu suchen, z.B. POS=/PP.*/ & lemma="sein" & #1 ^1,2 #2 findet als Personalpronomina getaggte Tokens vor bzw. nach Tokens, die als "sein" lemmatisiert sind (ich bin, du bist etc.).
Cunningham, Hamish, Diana Maynard, Kalina Bontcheva & Valentin Tablan. 2002. GATE: A Framework and Graphical Development Environment for Robust NLP Tools and Applications. Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL’02).
Jurish, Bryan. 2012. Finite-state Canonicalization Techniques for Historical German. PhD Thesis, University of Potsdam. urn:nbn:de:kobv:517-opus-55789.
Krause, Thomas & Amir Zeldes. 2016. ANNIS3: A new architecture for generic corpus query and visualization. Digital Scholarship in the Humanities 31(1). 118–139.
Nolting, Uta. 2010. Sprachgebrauch süddeutscher Klosterfrauen des 17. Jahrhunderts. (Studien und Texte zum Mittelalter und zur frühen Neuzeit 16). Münster: Waxmann.
Jun.-Prof. Dr. Jessica Nowak, Deutsches Institut, Johannes Gutenberg-Universität Mainz, nowakj[at]uni-mainz.de
Jun.-Prof. Dr. Stefan Hartmann, Heinrich-Heine-Universität Düsseldorf, hartmast@hhu.de