• Repozitorijs
  • Meklēšana korpusā
  • Par vietni
  • CLARIN
  •  Pieteikšanās
  • English Latviešu
  • CLARIN-LV repozitorija sākumlapa
  • Skatīt vienumu
  •  
  • CLARIN-LV logo
  •   Pārlūkot  
    •    Visi repozitoriji  
      •   Izdošanas datums
      •   Autori
      •   Nosaukumi
      •   Tēmas
      •   Izdevējs
      •   Valoda
      •   Tips
      •   Tiesību etiķete
  •   Mans konts  
    •    Pieteikšanās
  •   Statistika  
    •    Statistika BETA
  •   Vispārīga informācija  
    •    Deponēt
    •    Citēt
    •    Iesniegšanas dzīves cikls
    •    Bieži uzdotie jautājumi
    •    Par
    •    Palīdzības dienests
 
 

Balanced Corpus of Modern Latvian (LVK2022)

 
CLARIN Centre of Latvian language resources and tools
  Autori
Levāne-Petrova, Kristīne ; Darģis, Roberts ; Pokratniece, Kristīne and Lasmanis, Viesturs Jūlijs
  Vienuma identifikators
http://hdl.handle.net/20.500.12574/84
 Projekta URL
https://korpuss.lv/id/LVK2022
 Demonstrācijas URL
https://nosketch.korpuss.lv/#dashboard?corpname=LVK2022
 Izdošanas datums
2023
 Tips
corpus, text
 Lielums
122877749 tokens
 Valoda(-s)
Latvian
 Apraksts
The Balanced Corpus of Modern Latvian, which contains unique texts not yet included in other so far developed balanced corpora (LVK2013 and LVK2018). The corpus is primarily based on the design principles of previous balanced corpora. It contains authentic contemporary texts (mostly created after 2000) of various genres with metadata. Unlike its predecessors, this balanced corpus contains texts in the original language as well as translations. When selecting the texts to be included in the corpus from the web, first all current pages from one domain are collected and the content corresponding to the corpus is retrieved. The next processing step consisted of dividing the text into paragraphs and deleting duplicates or paragraphs irrelevant to the corpus (texts in foreign languages, tables, etc.). Paragraphs in some fiction documents have been rearranged alphabetically to comply with the contractual obligations to publishing companies. The balanced corpus has been comprised of the processed documents according to the following proportions of language genres: journalism (60%), fiction (10%), scientific (10%), Wikipedia (7%), legal (7%), parliamentary transcripts (3%) and subtitles (3%).
 Izdevējs
AiLab IMCS UL
 Atbalsts

Latvian Language Agency

Projekta kods: grant agreement No. 4.6/2019-029

Projekta nosaukums: Enlargement and Development of the Latvian National Text Corpus

 Tēma(-s)
text general representative morphology reference corpus
 Kolekcija (s)
Language resources and tools of AiLab IMCS UL
Rādīt pilnu ierakstu
 
 

Partneri, koordinācija, finansējums

  • Latvijas Universitātes Matemātikas un informātikas institūts
  • Latvijas Universitātes Literatūras, folkloras un mākslas institūts
  • Latvijas Universitāte
  • Rīgas Stradiņa universitāte
  • RTU Liepāja
  • Rēzeknes Tehnoloģiju akadēmija
  • Latvijas Nacionālā bibliotēka

Repozitorijs

  • Sākumlapa
  • Kontakti
  • Iesniegumu dzīvescikls
  • BUJ
  • Par vietni un politikas

Papildus

  • CLARIN
  • Kā pieslēgties

Šī vietne izmanto programmatūru, kas izstrādāta LINDAT/CLARIN repositorija vajadzībām un ir pieejama GitHub