2023.1.8

>ČASOPIS PRO MODERNÍ FILOLOGII 2023 (105) 1

Korpus DIA1900: jeho koncepce a vytváření

Corpus DIA1900: its Conception and Building

Lucie Benešová — Karel Kučera — Kateřina Najbrtová — Klára Pivoňková — Martin Stluka

 

 FULL TEXT   

 ABSTRACT (en)

The objective of the paper is to describe the principles for building the onemillionword DIA1900 Corpus consisting of Czech texts published between 1851 and 1900, designed to be both balanced and representative. There are two main goals determining the methods of corpus building and the decision to develop new tools tailored to the special needs of 19th century Czech: 1) to present the variability of Czech in the 2nd half of the 19th century (including spelling, morphology, wordformation) and 2) to link the detected variants to the appropriate lemmas. The paper presents the phases of the processing of the texts, including transcription, manual pre-annotation, as well as the construction of a large morphological dictionary and the selection of a suitable set of paradigms. Further sections are focused on annotation and morphological tagging and manual disambiguation. The objective was to create a gold standard, intended for use in the automatic annotation both of the DIA1900 corpus and the planned corpus of Czech texts of the years 1800–1850.

 KEYWORDS (cs)

diachronní korpus, čeština 19. století, morfologický slovník, lemmatizace, morfologické značkování, tagset

 KEYWORDS (en)

diachronic corpus, 19th century Czech, morphological dictionary, lemmatization, morphological annotation, tagset

 DOI

https://doi.org/10.14712/23366591.2023.1.8

 REFERENCES

Atom. A hackable text editor for the 21st Century [online]. [cit. 29. 3. 2022]. Dostupné z: .

DEBDict [online]. [cit. 29. 3. 2022]. Dostupné z: .

Feat / Home [online]. [cit. 29. 3. 2022]. Dostupné z: .

ÚČNK: Wiki [online]. [cit. 29. 3. 2022]. Dostupné z: https://wiki.korpus.cz/doku.php/ pojmy:lemma?s[]=hyperlemma.

ÚTKL: Poziční morfologické tagy [online]. [cit. 29. 3. 2022]. Dostupné z: .

Hajič, J. (2004): Disambiguation of Rich Inflection: Computational Morphology of Czech. Praha: Karolinum.

Hladká, Z. — Nekula, M. (2017): VLASTNÍ JMÉNO. In: P. Karlík — M. Nekula — J. Pleskalová (eds.), CzechEncy — Nový encyklopedický slovník češtiny. [online]. [cit. 15. 3. 2022]. Dostupné z: .

Hlaváčová, J. — Mikulová, M. — Štěpánková, B. — Hajič, J. (2019): Modifications of the Czech morphologigal dictionary for consistent corpus annotation. Journal of Linguistics, 70, 2, s. 380–389. Internetová jazyková příručka [online]. [cit. 29. 3. 2022]. Dostupné z: .

Kieraś, W. — Woliński, M. (2018): Manually Annotated Corpus of Polish Texts Published between 1830 and 1918. In: Proceedings of the Eleventh International Conference on Language Recources and Evaluation (LREC 2018). Miyazaki, Japan: ELRA.

Knappová, M. (1980): Významové aspekty vlastních jmen. Slovo a slovesnost, 41, s. 57–60.

Kučera, K. — Najbrtová, K. — Pivoňková, K. — Řehořková, A. — Stluka, M. (2019): Korpus českého jazyka 2. poloviny 19. století. Časopis pro moderní filologii, 101, 1, s. 92–97.

Linde, S. — Mittmann, R. (2013): Old German reference corpus: digitizing the knowledge od the 19th century. Automated pre-annotation using digitized historical glossaries. In: P. Bennett — M. Durrell — S. Scheible — R. J. Whitt (eds.), New Methods in Historical Corpora. Tübingen: Narr Verlag, s. 235–246. NameTag [online]. [cit. 29. 3. 2022]. Dostupné z: .

Osolsobě, K. — Hlaváčová, J. — Petkevič, V. — Šimandl, J. — Svášek, M. (2017): Nová automatická morfologická analýza češtiny. Naše řeč, 4, s. 225–234.

Pettersson, E. — Borin, L. (2019): Characteristics of diachronic and historical corpora. Features to consider in a Swedish diachronic corpus. [online]. [cit. 29. 1. 2022]. Dostupné z: .

PSJČ. Příruční slovník jazyka českého [online]. [cit. 29. 3. 2022]. Dostupné z: . SSJČ. Slovník spisovného jazyka českého [online]. [cit. 29. 3. 2022]. Dostupné z: .

Úvod > 2023.1.8