Retour

Construction d'un Corpus NLP pour le Medumba

Balbino Tchoutzine15 janvier 2024ongoing

🔬 Contexte de Recherche

Le Medumba est une langue bantoue parlée par environ 200 000 locuteurs dans la région de l'Ouest du Cameroun. Comme la plupart des langues africaines, elle souffre d'un manque criant de ressources numériques et d'outils de traitement automatique.

🎯 Objectifs de Recherche

Objectifs Principaux

  1. Collecte et Numérisation

    • Créer un corpus textuel de 10 000+ phrases
    • Numériser des textes traditionnels
    • Enregistrer et transcrire des conversations orales
  2. Développement d'Outils

    • Tokenizer adapté à la morphologie du Medumba
    • Étiqueteur morphosyntaxique (POS tagger)
    • Dictionnaire électronique bilingue
  3. Modèles de Traduction

    • Prototype Medumba → Français
    • Évaluation et amélioration itérative

📊 Méthodologie

Phase 1: Collecte de Données

Sources:

  • Textes traditionnels et proverbes
  • Transcriptions d'interviews avec des anciens
  • Conversations quotidiennes enregistrées
  • Documents écrits (rares)

Processus:

Collecte → Transcription → Normalisation → Annotation → Validation

Phase 2: Développement d'Outils

Tokenization:

  • Analyse morphologique du Medumba
  • Gestion des tons et marques grammaticales
  • Évaluation: précision de 92%

POS Tagging:

  • Schéma d'annotation personnalisé
  • 15 catégories grammaticales identifiées
  • En cours de développement

Phase 3: Modélisation

Architecture seq2seq:

Encoder (Medumba) → Attention → Decoder (Français)

Résultats préliminaires:

  • BLEU score: 28.5
  • Corpus: 5 000 paires de phrases
  • En amélioration continue

📈 Résultats Actuels

Corpus Collecté

| Métrique | Valeur | |----------|--------| | Phrases | 5 234 | | Mots uniques | 18 456 | | Tokens totaux | 89 320 | | Paires alignées (MED-FR) | 5 000 |

Outils Développés

  1. Tokenizer Medumba

    • Précision: 92%
    • Open source sur GitHub
  2. 🔄 POS Tagger (en cours)

    • Corpus annoté: 2 000 phrases
    • Baseline accuracy: 78%
  3. 🔄 Traducteur MED-FR

    • BLEU: 28.5
    • Amélioration via data augmentation

💡 Défis Rencontrés

1. Variation Orthographique

Le Medumba n'ayant pas de standardisation officielle:

  • Multiples façons d'écrire le même mot
  • Nécessité de normalisation
  • Création de règles de standardisation

Solution: Consultation avec linguistes et locuteurs natifs pour établir des conventions.

2. Ressources Limitées

  • Peu de locuteurs alphabétisés en Medumba
  • Absence de corpus numérique pré-existant
  • Difficulté d'accès aux informateurs

Solution: Collaboration avec la communauté, collecte terrain intensive.

3. Représentation des Tons

Le Medumba est une langue tonale (3 tons):

  • Difficulté de notation écrite des tons
  • Impact sur le traitement automatique

Solution: Système de notation avec diacritiques, expérimentations.

🔮 Prochaines Étapes

Court Terme (2024)

  • [ ] Atteindre 10 000 phrases dans le corpus
  • [ ] Finaliser le POS tagger (accuracy > 85%)
  • [ ] Améliorer BLEU score > 35

Moyen Terme (2025)

  • [ ] Publication d'un paper académique
  • [ ] Release open source du corpus
  • [ ] Développement d'une application demo

Long Terme

  • [ ] Étendre à d'autres langues camerounaises
  • [ ] Collaborations internationales
  • [ ] Impact communautaire mesurable

📝 Publications Prévues

  1. "Building a NLP Corpus for Medumba: Challenges and Insights"

    • Soumission: AfricaNLP Workshop 2025
    • Statut: En rédaction
  2. "Low-Resource Machine Translation for African Languages"

    • Soumission: ACL 2025
    • Statut: Recherche en cours

🤝 Collaborations

  • Université de Dschang - Département de linguistique
  • Masakhane Community - NLP pour l'Afrique
  • Locuteurs natifs - Validation et annotations

💻 Code et Données

📚 Références

  1. Ethnologue - Languages of Cameroon
  2. Masakhane - NLP for African Languages
  3. Relevant papers on low-resource NLP

📧 Contact

Pour collaborations ou questions:

  • Email: tchoutzine@gmail.com
  • Twitter: @balbinotech