🔬 Contexte de Recherche
Le Medumba est une langue bantoue parlée par environ 200 000 locuteurs dans la région de l'Ouest du Cameroun. Comme la plupart des langues africaines, elle souffre d'un manque criant de ressources numériques et d'outils de traitement automatique.
🎯 Objectifs de Recherche
Objectifs Principaux
-
Collecte et Numérisation
- Créer un corpus textuel de 10 000+ phrases
- Numériser des textes traditionnels
- Enregistrer et transcrire des conversations orales
-
Développement d'Outils
- Tokenizer adapté à la morphologie du Medumba
- Étiqueteur morphosyntaxique (POS tagger)
- Dictionnaire électronique bilingue
-
Modèles de Traduction
- Prototype Medumba → Français
- Évaluation et amélioration itérative
📊 Méthodologie
Phase 1: Collecte de Données
Sources:
- Textes traditionnels et proverbes
- Transcriptions d'interviews avec des anciens
- Conversations quotidiennes enregistrées
- Documents écrits (rares)
Processus:
Collecte → Transcription → Normalisation → Annotation → Validation
Phase 2: Développement d'Outils
Tokenization:
- Analyse morphologique du Medumba
- Gestion des tons et marques grammaticales
- Évaluation: précision de 92%
POS Tagging:
- Schéma d'annotation personnalisé
- 15 catégories grammaticales identifiées
- En cours de développement
Phase 3: Modélisation
Architecture seq2seq:
Encoder (Medumba) → Attention → Decoder (Français)
Résultats préliminaires:
- BLEU score: 28.5
- Corpus: 5 000 paires de phrases
- En amélioration continue
📈 Résultats Actuels
Corpus Collecté
| Métrique | Valeur | |----------|--------| | Phrases | 5 234 | | Mots uniques | 18 456 | | Tokens totaux | 89 320 | | Paires alignées (MED-FR) | 5 000 |
Outils Développés
-
✅ Tokenizer Medumba
- Précision: 92%
- Open source sur GitHub
-
🔄 POS Tagger (en cours)
- Corpus annoté: 2 000 phrases
- Baseline accuracy: 78%
-
🔄 Traducteur MED-FR
- BLEU: 28.5
- Amélioration via data augmentation
💡 Défis Rencontrés
1. Variation Orthographique
Le Medumba n'ayant pas de standardisation officielle:
- Multiples façons d'écrire le même mot
- Nécessité de normalisation
- Création de règles de standardisation
Solution: Consultation avec linguistes et locuteurs natifs pour établir des conventions.
2. Ressources Limitées
- Peu de locuteurs alphabétisés en Medumba
- Absence de corpus numérique pré-existant
- Difficulté d'accès aux informateurs
Solution: Collaboration avec la communauté, collecte terrain intensive.
3. Représentation des Tons
Le Medumba est une langue tonale (3 tons):
- Difficulté de notation écrite des tons
- Impact sur le traitement automatique
Solution: Système de notation avec diacritiques, expérimentations.
🔮 Prochaines Étapes
Court Terme (2024)
- [ ] Atteindre 10 000 phrases dans le corpus
- [ ] Finaliser le POS tagger (accuracy > 85%)
- [ ] Améliorer BLEU score > 35
Moyen Terme (2025)
- [ ] Publication d'un paper académique
- [ ] Release open source du corpus
- [ ] Développement d'une application demo
Long Terme
- [ ] Étendre à d'autres langues camerounaises
- [ ] Collaborations internationales
- [ ] Impact communautaire mesurable
📝 Publications Prévues
-
"Building a NLP Corpus for Medumba: Challenges and Insights"
- Soumission: AfricaNLP Workshop 2025
- Statut: En rédaction
-
"Low-Resource Machine Translation for African Languages"
- Soumission: ACL 2025
- Statut: Recherche en cours
🤝 Collaborations
- Université de Dschang - Département de linguistique
- Masakhane Community - NLP pour l'Afrique
- Locuteurs natifs - Validation et annotations
💻 Code et Données
- GitHub: github.com/zoom-BT/medumba-nlp
- Corpus: Sera publié en open source après publication
- Documentation: medumba-nlp.readthedocs.io
📚 Références
- Ethnologue - Languages of Cameroon
- Masakhane - NLP for African Languages
- Relevant papers on low-resource NLP
📧 Contact
Pour collaborations ou questions:
- Email: tchoutzine@gmail.com
- Twitter: @balbinotech