Data, modely, literatura

Zdroje dat

  • Hlavním zdrojem dat je 1 700 souborů ve formátu XML, z nichž každý reprezentuje jednu básnickou sbírku. Tyto soubory vnikly v pro starou verzi České elektronické knihovny na přelomu tisíciletí.
  • Velká část těchto sbírek byla zpracována Versologickým týmem do formátu JSON a doplněna o další informace, jakými jsou lemmata a morfologické značky k jednotlivým slovům vč. informací o metru atp. Tato data jsou dostupná jako Korpus českého verše.
  • Nově je Korpus českého verše součástí vícejazyčného projektu PoeTree, kde byla data doplněna jeětě o vyznačené místní entity (názvy měst, států atp.).

Vzniklý dataset jmenných entit

  • ČEK-NER-dataset je dataset jmenných entit (osoby v textu), který vznikl nad datay z Korpusu českého verše a je doplněn i místními entitami získaných z projektu PoeTree.
  • Dataset je stále doplňován, nyní obsahuje 5 675 básní, které byly ručně anotovány pracovníky UČL.
  • Každá báseň je obsažena ve dvou souborech:
    • txt soubor obsahuje báseň ve formátu CoNLL 2003.
    • csv soubor vedle vyznačených entit obsahuje u vybraných z nich ještě wikidata.org ID.
  • Stáhnout dataset (CEK-NER-dataset.zip, 15,9 MB) (informace o formátu a anotaci jsou v README.txt souboru)

Související člásnky

  • Kořínková, L.; Nováková, T.; Kosák, M.; Flaišman, J.; Klouda, K.
    Motivické a tematické klastry v básnických textech české poezie 19. a počátku 20. století
    Česká literatura. 2024, 72(2), 204-217. ISSN 0009-0468.
    doi.org/10.51305/cl.2024.02.04
  • Klesnilová, K.; Klouda, K.; Friedjungová, M.; Plecháč, P.
    Automatic Poetic Metre Detection for Czech Verse
    Studia Metrica et Poetica. 2024, 11(1), 44-61. ISSN 2346-6901.
    doi.org/10.12697/smp.2024.11.1.02

Modely AI

  • Pro shlukovou analýzu jsme využili model Top2Vec.
  • V rámci práce na tomto projektu jsme vytvořili model pro detekci metra v českém verši. Je založen na archytektuře BiLSTM-CRF, více zde: https://github.com/magdafriedjungova/metre_detection.
  • Pro práci s detekcí jmenných entit jsme používali model NameTag (Straka, Straková, ÚFAL MFF UK).