Balbino Tchoutzine

🔬 Contexte de Recherche

Le Medumba est une langue bantoue parlée par environ 200 000 locuteurs dans la région de l'Ouest du Cameroun. Comme la plupart des langues africaines, elle souffre d'un manque criant de ressources numériques et d'outils de traitement automatique.

🎯 Objectifs de Recherche

Objectifs Principaux

Collecte et Numérisation
- Créer un corpus textuel de 10 000+ phrases
- Numériser des textes traditionnels
- Enregistrer et transcrire des conversations orales
Développement d'Outils
- Tokenizer adapté à la morphologie du Medumba
- Étiqueteur morphosyntaxique (POS tagger)
- Dictionnaire électronique bilingue
Modèles de Traduction
- Prototype Medumba → Français
- Évaluation et amélioration itérative

📊 Méthodologie

Phase 1: Collecte de Données

Sources:

Textes traditionnels et proverbes
Transcriptions d'interviews avec des anciens
Conversations quotidiennes enregistrées
Documents écrits (rares)

Processus:

Collecte → Transcription → Normalisation → Annotation → Validation

Phase 2: Développement d'Outils

Tokenization:

Analyse morphologique du Medumba
Gestion des tons et marques grammaticales
Évaluation: précision de 92%

POS Tagging:

Schéma d'annotation personnalisé
15 catégories grammaticales identifiées
En cours de développement

Phase 3: Modélisation

Architecture seq2seq:

Encoder (Medumba) → Attention → Decoder (Français)

Résultats préliminaires:

BLEU score: 28.5
Corpus: 5 000 paires de phrases
En amélioration continue

📈 Résultats Actuels

Corpus Collecté

| Métrique | Valeur | |----------|--------| | Phrases | 5 234 | | Mots uniques | 18 456 | | Tokens totaux | 89 320 | | Paires alignées (MED-FR) | 5 000 |

Outils Développés

✅ Tokenizer Medumba
- Précision: 92%
- Open source sur GitHub
🔄 POS Tagger (en cours)
- Corpus annoté: 2 000 phrases
- Baseline accuracy: 78%
🔄 Traducteur MED-FR
- BLEU: 28.5
- Amélioration via data augmentation

💡 Défis Rencontrés

1. Variation Orthographique

Le Medumba n'ayant pas de standardisation officielle:

Multiples façons d'écrire le même mot
Nécessité de normalisation
Création de règles de standardisation

Solution: Consultation avec linguistes et locuteurs natifs pour établir des conventions.

2. Ressources Limitées

Peu de locuteurs alphabétisés en Medumba
Absence de corpus numérique pré-existant
Difficulté d'accès aux informateurs

Solution: Collaboration avec la communauté, collecte terrain intensive.

3. Représentation des Tons

Le Medumba est une langue tonale (3 tons):

Difficulté de notation écrite des tons
Impact sur le traitement automatique

Solution: Système de notation avec diacritiques, expérimentations.

🔮 Prochaines Étapes

Court Terme (2024)

[ ] Atteindre 10 000 phrases dans le corpus
[ ] Finaliser le POS tagger (accuracy > 85%)
[ ] Améliorer BLEU score > 35

Moyen Terme (2025)

[ ] Publication d'un paper académique
[ ] Release open source du corpus
[ ] Développement d'une application demo

Long Terme

[ ] Étendre à d'autres langues camerounaises
[ ] Collaborations internationales
[ ] Impact communautaire mesurable

📝 Publications Prévues

"Building a NLP Corpus for Medumba: Challenges and Insights"
- Soumission: AfricaNLP Workshop 2025
- Statut: En rédaction
"Low-Resource Machine Translation for African Languages"
- Soumission: ACL 2025
- Statut: Recherche en cours

🤝 Collaborations

Université de Dschang - Département de linguistique
Masakhane Community - NLP pour l'Afrique
Locuteurs natifs - Validation et annotations

💻 Code et Données

GitHub: github.com/zoom-BT/medumba-nlp
Corpus: Sera publié en open source après publication
Documentation: medumba-nlp.readthedocs.io

📚 Références

Ethnologue - Languages of Cameroon
Masakhane - NLP for African Languages
Relevant papers on low-resource NLP

📧 Contact

Pour collaborations ou questions:

Email: tchoutzine@gmail.com
Twitter: @balbinotech

Construction d'un Corpus NLP pour le Medumba