Leipzig Corpora Collection

Search in 1019 Corpus-Based Monolingual Dictionaries for 291 Languages.

Selected language: Tamil Newscrawl 2011

Search suggestions: விடுதலைப் · நிலையம் · கொடி · சமயம் · அறிந்த

More information about: Tamil Newscrawl 2011 Change corpus

The corpus tam_newscrawl_2011 is a Tamil news corpus based on material crawled in 2011. It contains 1,341,954 sentences and 14,581,452 tokens. Details

DOWNLOADS

Download parts of this corpus.

STATISTICS

More details about this corpus on our corpus and language statistics page.

Description

Tamil news corpus based on material crawled in 2011

Details

Name	tam_newscrawl_2011	Sentences	1,341,954
Language	Tamil ()	Types	1,235,011
Genre	Newscrawl	Tokens	14,581,452
Year	2011

Link to the corpus

https://corpora.uni-leipzig.de?corpusId=tam_newscrawl_2011

Annotations

coocSim
GDEX
wordsLevenshteinSim

Cite this corpus

Leipzig Corpora Collection: Tamil news corpus based on material crawled in 2011. Leipzig Corpora Collection. Dataset. https://corpora.uni-leipzig.de?corpusId=tam_newscrawl_2011. BibTeX

@misc{tam_newscrawl_2011,
    author = {Leipzig Corpora Collection},
    title = {Tamil news corpus based on material crawled in 2011},
    howpublished = {https://corpora.uni-leipzig.de?corpusId=tam_newscrawl_2011},
    note = {Accessed: 2024-04-19}
}