arabic-dialects-id

Arabic dialects identification system

Steps to prepare a dataset for training

each dialect in one file
split each file into train (90) and test (10) split -l $[ $(wc -l filename|cut -d" " -f1) * 90 / 100 ] filename
split each train into lines split -l 1 -a 4 -d file.ext prefix ara_
prepare directory structure: train_corpus/domain/lang/docs/

note : corpus_model_n_grams old model builded on old version of data without preorocessing

Name		Name	Last commit message	Last commit date
Latest commit History 78 Commits
Filter_Pure		Filter_Pure
Our_Full_corpus		Our_Full_corpus
Our_Pure_Corpus		Our_Pure_Corpus
Test_Filter_Corpus		Test_Filter_Corpus
Test_Our_Corpus		Test_Our_Corpus
Test_Pure_Corpus		Test_Pure_Corpus
Train_Filter_Corpus/train		Train_Filter_Corpus/train
Train_Padic/conversation		Train_Padic/conversation
Train_Pure_Corpus/stories		Train_Pure_Corpus/stories
Training		Training
built_models		built_models
char_gram_models		char_gram_models
langid.py-master		langid.py-master
multidialect_model		multidialect_model
multidialect_model_5_grams		multidialect_model_5_grams
nizar_arabic_dialects		nizar_arabic_dialects
results		results
sh_archive		sh_archive
short Pure		short Pure
test_multidialect_arabic		test_multidialect_arabic
test_padic/conversation		test_padic/conversation
train_multidialect_arabic/conversations		train_multidialect_arabic/conversations
word_gram_models		word_gram_models
.gitignore		.gitignore
LICENSE		LICENSE
NBscikit_learn.py		NBscikit_learn.py
README.md		README.md
build_gram_model.py		build_gram_model.py
build_lang_id_model.sh		build_lang_id_model.sh
commands.sh		commands.sh
eval_metrics.py		eval_metrics.py
evaluate_corpus.py		evaluate_corpus.py
evaluate_multidialect.py		evaluate_multidialect.py
evaluate_padic.py		evaluate_padic.py
feature_extraction.py		feature_extraction.py
grams.py		grams.py
grams_course.py		grams_course.py
process_arabic.py		process_arabic.py
readme2		readme2
requirements		requirements
svm.py		svm.py
test_corpus.py		test_corpus.py
test_gram_model.py		test_gram_model.py
test_multidialect.py		test_multidialect.py
test_padic.py		test_padic.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

arabic-dialects-id

About

Releases

Packages

License

motazsaad/arabic-dialects-id

Folders and files

Latest commit

History

Repository files navigation

arabic-dialects-id

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages