Leipzig Corpora Collection

Search in 1018 Corpus-Based Monolingual Dictionaries for 290 Languages.

Selected language: Bengali Wikipedia 2018

Search suggestions: সত্ত্বেও · হয়েছিলেন · গণিত · ৭ · ১৫

More information about: Bengali Wikipedia 2018 Change corpus

The corpus ben_wikipedia_2018_300K is a Bengali Wikipedia subcorpus based on material from 2018 (300,000 sentences). It contains 300,000 sentences and 3,939,930 tokens. Details

DOWNLOADS

Download parts of this corpus.

STATISTICS

More details about this corpus on our corpus and language statistics page.

Further services:

Description

Bengali Wikipedia subcorpus based on material from 2018 (300,000 sentences)

Details

Name	ben_wikipedia_2018_300K	Sentences	300,000
Language	Bengali ()	Types	320,340
Genre	Wikipedia	Tokens	3,939,930
Year	2018

Link to the corpus

https://corpora.uni-leipzig.de?corpusId=ben_wikipedia_2018_300K

We want to thank

Wikipedia: Data

Cite this corpus

Leipzig Corpora Collection: Bengali Wikipedia subcorpus based on material from 2018 (300,000 sentences). Leipzig Corpora Collection. Dataset. https://corpora.uni-leipzig.de?corpusId=ben_wikipedia_2018_300K. BibTeX

@misc{ben_wikipedia_2018_300K,
    author = {Leipzig Corpora Collection},
    title = {Bengali Wikipedia subcorpus based on material from 2018 (300,000 sentences)},
    howpublished = {https://corpora.uni-leipzig.de?corpusId=ben_wikipedia_2018_300K},
    note = {Accessed: 2024-12-27}
}