2023.2.7

>ČASOPIS PRO MODERNÍ FILOLOGII 2023 (105) 2

Blýskání na lepší data z českých digitálních knihoven

There Are Better Data Ahead from Czech Digital Libraries

Boris Lehečka

 

 FULL TEXT   

 ABSTRACT (en)

In the humanities, analysis of primary and secondary literature is an important area of research work. Besides language corpora, digital libraries, which digitized approximately 98.7 million pages in the Czech Republic between 1992 and 2022, can be considered a suitable source of written texts in recent years. The article presents an example from abroad and gives a brief overview of data sources in the Czech environment. It focuses on the recently completed DL4DH project, which aims to offer researchers access to large volumes of data from the Kramerius digital library in standardized formats (plain text, ALTO, CSV/TSV, TEI, JSON) not only through a new web application but also through a REST API. To make the subsequent analysis of the publications as easy as possible, the downloaded data can include enrichment data from the UDPipe and NameTag tools developed and operated by the LINDAT/CLARIAH-CZ research infrastructure.

 KEYWORDS (sk)

velká data, digitální knihovna, digitální humanitní vědy, výzkumná infrastruktura, autorský zákon

 KEYWORDS (en)

big data, digital library, digital humanities, research infrastructure, copyright law

 DOI

https://doi.org/10.14712/23366591.2023.2.7

 LITERATURE

Lehečka, B. — Novák, D. — Kersch, F. et al. (2022): Metodika přípravy dat z digitálních knihoven pro využití v digitálních humanitních vědách. Knihovna AV ČR. Dostupné také z: http://invenio.nusl.cz/record/511549/files/ Metodika_DL4DH.pdf

Richter, V. (2020): Zpřístupnění plných textů digitalizovaných knih a periodik prostřednictvím Národní digitální knihovny. Informace — zpravodaj Knihovny AV ČR [online]. (2) [cit. 2022-04-28]. Dostupné z: https://www.lib.cas.cz/casopis_informace/ zpistupneni-digi-ndk/

Standardy digitalizace (2018). In: Národní digitální knihovna [online]. Praha: Národní knihovna ČR [cit. 2022-06-25]. Dostupné z: https://standardy.ndk.cz/ndk/standardydigitalizace/

Wilkens, M. — Ruan, G. (2020): Geographic Locations in English-Language Literature, 1701–2011 (1.0). [Dataset] [online]. 2020. HathiTrust Research Center [cit. 2023-01-19]. Dostupné z: https://doi. org/10.13012/2K5C-RF13

 WEBS

IBenko, V. (2014): Aranea: Yet Another Family of (Comparable) Web Corpora. In: P. Sojka — A. Horák — I. Kopeček — K. Pala (eds.), Text, Speech and Dialogue [online]. Cham: Springer International Publishing, Lecture Notes in Computer Science, s. 247–256 [cit. 2023-04-24]. Dostupné z: https://doi.org/10.1007/978-3-319-10816-2_31.

Benko, V. (2015): Araneum Bohemicum Maximum: verze 15.04 [online]. Praha: Ústav Českého národního korpusu FF UK [cit. 2023-04-24]. Dostupné z: http://www.korpus.cz

Benko, V. (2020): Araneum Bohemicum Maximum: verze 20.03 [online]. Bratislava: UNESCO Chair in Plurilingual and Multicultural Communication, Comenius University in Bratislava a [cit. 2023-04-24]. Dostupné z: http://unesco.uniba.sk

Bibliografie dějin Českých zemí [online] (2013). Praha: Historický ústav AV ČR [cit. 2023-04-24]. Dostupné z: https://biblio.hiu.cas.cz

Czech medieval sources FONTES [online] (2023). Praha [cit. 2023-04-24]. Dostupné z: https://sources.cms.flu.cas.cz

Česká digitální knihovna: Národní agregátor digitálních knihoven [online] (2022). Praha: Knihovna AV ČR [cit. 2022-06-25]. Dostupné z: https://www.czechdigitallibrary.cz

DALL·E 2 [online] (2022). San Francisco: OpenAI [cit. 2023-04-24]. Dostupné z: https://labs.openai.com

Digitální knihovna [online], bez data. Brno: Moravská zemská knihovna v Brně [cit. 2023-04-24]. Dostupné z: https://www.digitalniknihovna.cz

Europeana [online], bez data. [cit. 2023-04-24]. Dostupné z: https://www.europeana.eu/cs

HathiTrust: Digital Library [online] (2008–2023). [cit. 2023-04-24]. Dostupné z: https://www.hathitrust.org

HyperFontes: Metadatový modul databáze Czech Medieval Sources online [online] (2023). Praha: Centrum medievistických studií [cit. 2023-04-24]. Dostupné z: https://hyperfontes.cms.flu.cas.cz

Charles Translator for Ukraine [online] (2022). Praha [cit. 2023-04-24]. Dostupné z: https://lindat.cz/translation

ChatGPT [online] (2022). San Francisco: OpenAI [cit. 2023-04-24]. Dostupné z: https://chat.openai.com

Korpus českého verše [online] (2021). Praha: Ústav pro českou literaturu AV ČR, v. v. i. [cit. 2023-04-24]. Dostupné z: https://versologie.cz/v2/web_content/corpus.php

LINDAT/CLARIAH-CZ: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy [online] (2023). Praha [cit. 2023-04-24]. Dostupné z: https://lindat.cz/cs

Manuscriptorium: Digital Library of Written Cultural Heritage [online] (2023). [cit. 2023-04-24]. Dostupné z: https://www.manuscriptorium.com/cs

Monasterium [online] (2023). ICARUS [cit. 2023-04-24]. Dostupné z: https://www.monasterium.net/mom/home

PERO OCR: demonstration application [online], bez data. Brno: Vysoké učení technické v Brně [cit. 2023-04-24]. Dostupné z: https://pero-ocr.fit.vutbr.cz

Registr digitalizace: Evidence dokumentů digitalizovaných v ČR [online] (2017). Praha: Národní knihovna ČR — Knihovna Akademie věd ČR — INCAD [cit. 2023-04-24]. Dostupné z: https://www.registrdigitalizace.cz

Registr Krameriů [online], bez data. Brno: Moravská zemská knihovna v Brně [cit. 2023-04-24]. Dostupné z: https://registr.digitalniknihovna.cz

Spoustová, J. — Spousta, M. (2012): CWC2011. Dostupné také z: http://hdl.handle.net/11858/00-097C-0000-0006-B847-6

Staročeská textová banka [online], bez data. Praha: Ústav pro jazyk český AV ČR, v. v. i., oddělení vývoje jazyka, verze dat 1.1.22 [cit. 2023-04-24]. Dostupné z: https://korpus.vokabular.ujc.cas.cz/first_form?corpname=STB-1.1.22.1

Straka M. — Straková, J. (2014): NameTag [online]. Praha: LINDAT/CLARIAH-CZ, digitální knihovna při Ústavu formální a aplikované lingvistiky, Matematicko–fyzikální fakulta Univerzity Karlovy [cit. 2023-04-24]. Dostupné z: http://hdl.handle.net/11858/00-097C-0000-0023-43CE-E

Straka M. — Straková, J. (2016): UDPipe [online]. Praha: LINDAT/CLARIAH-CZ, digitální knihovna při Ústavu formální a aplikované lingvistiky, Matematicko-fyzikální fakulta Univerzity Karlovy

Úvod > 2023.2.7