Hlavním zdrojem dat je 1 700 souborů ve formátu XML, z nichž každý reprezentuje jednu básnickou sbírku.
Tyto soubory vnikly v pro starou verziČeské elektronické knihovny na přelomu tisíciletí.
Velká část těchto sbírek byla zpracována Versologickým týmem do formátu JSON a doplněna o další informace, jakými jsou lemmata a morfologické značky k jednotlivým slovům vč. informací o metru atp. Tato data jsou dostupná jako Korpus českého verše.
Nově je Korpus českého verše součástí vícejazyčného projektu PoeTree, kde byla data doplněna jeětě o vyznačené místní entity (názvy měst, států atp.).
Vzniklý dataset jmenných entit
ČEK-NER-dataset je dataset jmenných entit (osoby v textu), který vznikl nad datay z Korpusu českého verše a je doplněn i místními entitami získaných z projektu PoeTree.
Dataset je stále doplňován, nyní obsahuje 5 675 básní, které byly ručně anotovány pracovníky UČL.
Každá báseň je obsažena ve dvou souborech:
txt soubor obsahuje báseň ve formátu CoNLL 2003.
csv soubor vedle vyznačených entit obsahuje u vybraných z nich ještě wikidata.org ID.
Kořínková, L.; Nováková, T.; Kosák, M.; Flaišman, J.; Klouda, K. Motivické a tematické klastry v básnických textech české poezie 19. a počátku 20. století
Česká literatura. 2024, 72(2), 204-217. ISSN 0009-0468. doi.org/10.51305/cl.2024.02.04
Klesnilová, K.; Klouda, K.; Friedjungová, M.; Plecháč, P. Automatic Poetic Metre Detection for Czech Verse
Studia Metrica et Poetica. 2024, 11(1), 44-61. ISSN 2346-6901. doi.org/10.12697/smp.2024.11.1.02