Leipzig Corpora Collection

Search in 1018 Corpus-Based Monolingual Dictionaries for 290 Languages.

Selected language: Arabic Wikipedia 2018

Search suggestions: التعبير · نمط · دائما · المرض · وفق

More information about: Arabic Wikipedia 2018 Change corpus

The corpus ara_wikipedia_2018_1M is a Arabic Wikipedia subcorpus based on material from 2018 (1,000,000 sentences). It contains 1,000,000 sentences and 19,419,287 tokens. Details

DOWNLOADS

Download parts of this corpus.

STATISTICS

More details about this corpus on our corpus and language statistics page.

Description

Arabic Wikipedia subcorpus based on material from 2018 (1,000,000 sentences)

Details

Name	ara_wikipedia_2018_1M	Sentences	1,000,000
Language	Arabic ()	Types	1,006,181
Genre	Wikipedia	Tokens	19,419,287
Year	2018

Link to the corpus

https://corpora.uni-leipzig.de?corpusId=ara_wikipedia_2018_1M

We want to thank

Wikipedia: Data

Cite this corpus

Leipzig Corpora Collection: Arabic Wikipedia subcorpus based on material from 2018 (1,000,000 sentences). Leipzig Corpora Collection. Dataset. https://corpora.uni-leipzig.de?corpusId=ara_wikipedia_2018_1M. BibTeX

@misc{ara_wikipedia_2018_1M,
    author = {Leipzig Corpora Collection},
    title = {Arabic Wikipedia subcorpus based on material from 2018 (1,000,000 sentences)},
    howpublished = {https://corpora.uni-leipzig.de?corpusId=ara_wikipedia_2018_1M},
    note = {Accessed: 2024-12-22}
}