>ČASOPIS PRO MODERNÍ FILOLOGII 2023 (105) 2
There Are Better Data Ahead from Czech Digital Libraries
ABSTRACT (en)
In the humanities, analysis of primary and secondary literature is an important area of research work. Besides language corpora, digital libraries, which digitized approximately 98.7 million pages in the Czech Republic between 1992 and 2022, can be considered a suitable source of written texts in recent years. The article presents an example from abroad and gives a brief overview of data sources in the Czech environment. It focuses on the recently completed DL4DH project, which aims to offer researchers access to large volumes of data from the Kramerius digital library in standardized formats (plain text, ALTO, CSV/TSV, TEI, JSON) not only through a new web application but also through a REST API. To make the subsequent analysis of the publications as easy as possible, the downloaded data can include enrichment data from the UDPipe and NameTag tools developed and operated by the LINDAT/CLARIAH-CZ research infrastructure.
KEYWORDS (sk)
velká data, digitální knihovna, digitální humanitní vědy, výzkumná infrastruktura, autorský zákon
KEYWORDS (en)
big data, digital library, digital humanities, research infrastructure, copyright law
DOI
https://doi.org/10.14712/23366591.2023.2.7
LITERATURE
Lehečka, B. — Novák, D. — Kersch, F. et al. (2022): Metodika přípravy dat z digitálních knihoven pro využití v digitálních humanitních vědách. Knihovna AV ČR. Dostupné také z: http://invenio.nusl.cz/record/511549/files/ Metodika_DL4DH.pdf
Richter, V. (2020): Zpřístupnění plných textů digitalizovaných knih a periodik prostřednictvím Národní digitální knihovny. Informace — zpravodaj Knihovny AV ČR [online]. (2) [cit. 2022-04-28]. Dostupné z: https://www.lib.cas.cz/casopis_informace/ zpistupneni-digi-ndk/
Standardy digitalizace (2018). In: Národní digitální knihovna [online]. Praha: Národní knihovna ČR [cit. 2022-06-25]. Dostupné z: https://standardy.ndk.cz/ndk/standardydigitalizace/
Wilkens, M. — Ruan, G. (2020): Geographic Locations in English-Language Literature, 1701–2011 (1.0). [Dataset] [online]. 2020. HathiTrust Research Center [cit. 2023-01-19]. Dostupné z: https://doi. org/10.13012/2K5C-RF13
WEBS
IBenko, V. (2014): Aranea: Yet Another Family of (Comparable) Web Corpora. In: P. Sojka — A. Horák — I. Kopeček — K. Pala (eds.), Text, Speech and Dialogue [online]. Cham: Springer International Publishing, Lecture Notes in Computer Science, s. 247–256 [cit. 2023-04-24]. Dostupné z: https://doi.org/10.1007/978-3-319-10816-2_31.
Benko, V. (2015): Araneum Bohemicum Maximum: verze 15.04 [online]. Praha: Ústav Českého národního korpusu FF UK [cit. 2023-04-24]. Dostupné z: http://www.korpus.cz
Benko, V. (2020): Araneum Bohemicum Maximum: verze 20.03 [online]. Bratislava: UNESCO Chair in Plurilingual and Multicultural Communication, Comenius University in Bratislava a [cit. 2023-04-24]. Dostupné z: http://unesco.uniba.sk
Bibliografie dějin Českých zemí [online] (2013). Praha: Historický ústav AV ČR [cit. 2023-04-24]. Dostupné z: https://biblio.hiu.cas.cz
Czech medieval sources FONTES [online] (2023). Praha [cit. 2023-04-24]. Dostupné z: https://sources.cms.flu.cas.cz
Česká digitální knihovna: Národní agregátor digitálních knihoven [online] (2022). Praha: Knihovna AV ČR [cit. 2022-06-25]. Dostupné z: https://www.czechdigitallibrary.cz
DALL·E 2 [online] (2022). San Francisco: OpenAI [cit. 2023-04-24]. Dostupné z: https://labs.openai.com
Digitální knihovna [online], bez data. Brno: Moravská zemská knihovna v Brně [cit. 2023-04-24]. Dostupné z: https://www.digitalniknihovna.cz
Europeana [online], bez data. [cit. 2023-04-24]. Dostupné z: https://www.europeana.eu/cs
HathiTrust: Digital Library [online] (2008–2023). [cit. 2023-04-24]. Dostupné z: https://www.hathitrust.org
HyperFontes: Metadatový modul databáze Czech Medieval Sources online [online] (2023). Praha: Centrum medievistických studií [cit. 2023-04-24]. Dostupné z: https://hyperfontes.cms.flu.cas.cz
Charles Translator for Ukraine [online] (2022). Praha [cit. 2023-04-24]. Dostupné z: https://lindat.cz/translation
ChatGPT [online] (2022). San Francisco: OpenAI [cit. 2023-04-24]. Dostupné z: https://chat.openai.com
Korpus českého verše [online] (2021). Praha: Ústav pro českou literaturu AV ČR, v. v. i. [cit. 2023-04-24]. Dostupné z: https://versologie.cz/v2/web_content/corpus.php
LINDAT/CLARIAH-CZ: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy [online] (2023). Praha [cit. 2023-04-24]. Dostupné z: https://lindat.cz/cs
Manuscriptorium: Digital Library of Written Cultural Heritage [online] (2023). [cit. 2023-04-24]. Dostupné z: https://www.manuscriptorium.com/cs
Monasterium [online] (2023). ICARUS [cit. 2023-04-24]. Dostupné z: https://www.monasterium.net/mom/home
PERO OCR: demonstration application [online], bez data. Brno: Vysoké učení technické v Brně [cit. 2023-04-24]. Dostupné z: https://pero-ocr.fit.vutbr.cz
Registr digitalizace: Evidence dokumentů digitalizovaných v ČR [online] (2017). Praha: Národní knihovna ČR — Knihovna Akademie věd ČR — INCAD [cit. 2023-04-24]. Dostupné z: https://www.registrdigitalizace.cz
Registr Krameriů [online], bez data. Brno: Moravská zemská knihovna v Brně [cit. 2023-04-24]. Dostupné z: https://registr.digitalniknihovna.cz
Spoustová, J. — Spousta, M. (2012): CWC2011. Dostupné také z: http://hdl.handle.net/11858/00-097C-0000-0006-B847-6
Staročeská textová banka [online], bez data. Praha: Ústav pro jazyk český AV ČR, v. v. i., oddělení vývoje jazyka, verze dat 1.1.22 [cit. 2023-04-24]. Dostupné z: https://korpus.vokabular.ujc.cas.cz/first_form?corpname=STB-1.1.22.1
Straka M. — Straková, J. (2014): NameTag [online]. Praha: LINDAT/CLARIAH-CZ, digitální knihovna při Ústavu formální a aplikované lingvistiky, Matematicko–fyzikální fakulta Univerzity Karlovy [cit. 2023-04-24]. Dostupné z: http://hdl.handle.net/11858/00-097C-0000-0023-43CE-E
Straka M. — Straková, J. (2016): UDPipe [online]. Praha: LINDAT/CLARIAH-CZ, digitální knihovna při Ústavu formální a aplikované lingvistiky, Matematicko-fyzikální fakulta Univerzity Karlovy