Leipzig Corpora Collection

Search in 1019 Corpus-Based Monolingual Dictionaries for 291 Languages.

Selected language: Gujarati Newscrawl 2011

Search suggestions: મા · સૂર્યાસ્ત · કલ્યાણ · રહેતો · ગેસ

More information about: Gujarati Newscrawl 2011 Change corpus

The corpus guj_newscrawl_2011 is a Gujarati news corpus based on material crawled in 2011. It contains 848,723 sentences and 11,635,413 tokens. Details

DOWNLOADS

Download parts of this corpus.

STATISTICS

More details about this corpus on our corpus and language statistics page.

Description

Gujarati news corpus based on material crawled in 2011

Details

Name	guj_newscrawl_2011	Sentences	848,723
Language	Gujarati ()	Types	505,062
Genre	Newscrawl	Tokens	11,635,413
Year	2011

Link to the corpus

https://corpora.uni-leipzig.de?corpusId=guj_newscrawl_2011

Annotations

coocSim
GDEX
wordsLevenshteinSim

Cite this corpus

Leipzig Corpora Collection: Gujarati news corpus based on material crawled in 2011. Leipzig Corpora Collection. Dataset. https://corpora.uni-leipzig.de?corpusId=guj_newscrawl_2011. BibTeX

@misc{guj_newscrawl_2011,
    author = {Leipzig Corpora Collection},
    title = {Gujarati news corpus based on material crawled in 2011},
    howpublished = {https://corpora.uni-leipzig.de?corpusId=guj_newscrawl_2011},
    note = {Accessed: 2024-04-25}
}