Data, modely, literatura

Zdroje dat

Hlavním zdrojem dat je 1 700 souborů ve formátu XML, z nichž každý reprezentuje jednu básnickou sbírku. Tyto soubory vnikly v pro starou verzi České elektronické knihovny na přelomu tisíciletí.
Velká část těchto sbírek byla zpracována Versologickým týmem do formátu JSON a doplněna o další informace, jakými jsou lemmata a morfologické značky k jednotlivým slovům vč. informací o metru atp. Tato data jsou dostupná jako Korpus českého verše.
Nově je Korpus českého verše součástí vícejazyčného projektu PoeTree, kde byla data doplněna jeětě o vyznačené místní entity (názvy měst, států atp.).

ČEK-NER-dataset je dataset jmenných entit (osoby v textu), který vznikl nad datay z Korpusu českého verše a je doplněn i místními entitami získaných z projektu PoeTree.
Dataset je stále doplňován, nyní obsahuje 5 675 básní, které byly ručně anotovány pracovníky UČL.
Každá báseň je obsažena ve dvou souborech:
- txt soubor obsahuje báseň ve formátu CoNLL 2003.
- csv soubor vedle vyznačených entit obsahuje u vybraných z nich ještě wikidata.org ID.
Stáhnout dataset (CEK-NER-dataset.zip, 15,9 MB) (informace o formátu a anotaci jsou v README.txt souboru)

Kořínková, L.; Nováková, T.; Kosák, M.; Flaišman, J.; Klouda, K.
Motivické a tematické klastry v básnických textech české poezie 19. a počátku 20. století
Česká literatura. 2024, 72(2), 204-217. ISSN 0009-0468.
doi.org/10.51305/cl.2024.02.04
Klesnilová, K.; Klouda, K.; Friedjungová, M.; Plecháč, P.
Automatic Poetic Metre Detection for Czech Verse
Studia Metrica et Poetica. 2024, 11(1), 44-61. ISSN 2346-6901.
doi.org/10.12697/smp.2024.11.1.02

Pro shlukovou analýzu jsme využili model Top2Vec.
V rámci práce na tomto projektu jsme vytvořili model pro detekci metra v českém verši. Je založen na archytektuře BiLSTM-CRF, více zde: https://github.com/magdafriedjungova/metre_detection.
Pro práci s detekcí jmenných entit jsme používali model NameTag (Straka, Straková, ÚFAL MFF UK).