Leipzig Corpora Collection

Search in 1019 Corpus-Based Monolingual Dictionaries for 291 Languages.

Selected language: Tajik Newscrawl 2011

Search suggestions: бунёди · хонавода · шубҳа · Осиё · хориҷа

More information about: Tajik Newscrawl 2011 Change corpus

The corpus tgk_newscrawl_2011 is a Tajik news corpus based on material crawled in 2011. It contains 186,410 sentences and 3,370,375 tokens. Details

DOWNLOADS

Download parts of this corpus.

STATISTICS

More details about this corpus on our corpus and language statistics page.

Description

Tajik news corpus based on material crawled in 2011

Details

Name	tgk_newscrawl_2011	Sentences	186,410
Language	Tajik ()	Types	203,877
Genre	Newscrawl	Tokens	3,370,375
Year	2011

Link to the corpus

https://corpora.uni-leipzig.de?corpusId=tgk_newscrawl_2011

Annotations

coocSim
GDEX
wordsLevenshteinSim

Cite this corpus

Leipzig Corpora Collection: Tajik news corpus based on material crawled in 2011. Leipzig Corpora Collection. Dataset. https://corpora.uni-leipzig.de?corpusId=tgk_newscrawl_2011. BibTeX

@misc{tgk_newscrawl_2011,
    author = {Leipzig Corpora Collection},
    title = {Tajik news corpus based on material crawled in 2011},
    howpublished = {https://corpora.uni-leipzig.de?corpusId=tgk_newscrawl_2011},
    note = {Accessed: 2024-04-19}
}