AI4D Takwimu Lab - Machine Translation Challenge
$2 000 USD
Can you translate French to Fongbe and Ewe?
340 data scientists enrolled, 71 on the leaderboard
TranslationUnstructuredNLP
18 December 2020—30 May 2021
164 days

This is a parallel corpus dataset for machine translation from French to Ewe and French to Fongbe, languages from Togo and Benin respectively. It contains roughly 23 000 French to Ewe and 53 000 French to Fongbe parallel sentences, collected from blogs, tales, newspapers, daily conversations, webpages and annotated for neural machine translation.. The collected sentences were preprocessed and aligned manually.

Variable definitions

  • ID : Unique identifier of the text
  • French : Text in French
  • Target_Laguauge: The target language
  • Target : Text in Fongbe or Ewe

Files available for download:

  • Train.csv - contains parallel sentences for training your model or models. There are 77,177 rows, of which 53,366 are French-Fongbe and 23,811 are French-Ewe
  • Test.csv- resembles Train.csv but without the Target column. This is the dataset on which you will apply your model(s).
  • SampleSubmission.csv - shows the submission format for this competition, with the ID column mirroring that of Test.csv and the ‘Target’ column containing your translation in Ewe or Fongbe. The order of the rows does not matter, but the names of the ‘ID’ must be correct.

Il s'agit d'un ensemble de données de corpus parallèle pour la traduction automatique du français vers l'éwé et du français vers le fongbe, langues respectivement du Togo et du Bénin. Il contient environ 23 000 phrases parallèles entre le français et l'éwé et 53 000 le français vers le fongbe, annotées pour la traduction automatique neuronale. Les données Français vers Ewe et Français vers Fongbe contiennent des phrases parallèles collectées à partir de blogs, contes, journaux, conversations quotidiennes, pages Web. Les phrases collectées ont été prétraitées et alignées manuellement.

Définition de Variables

  • ID: identifiant unique du texte
  • Français: Texte en français
  • Target_Laguauge: la langue target
  • Target: texte en Fongbe ou Ewe

Fichiers disponibles en téléchargement:

  • Train.csv - contient des paires de phrases Francais-Fongbe et Français-Ewe pour entraîner le(s) modèle(s). Il y a 77,177 lignes, dont 53,366 sont en Français-Fongbe et 23,811 sont en Français-Ewe.
  • Test.csv - ressemble à la donnée Train.csv mais ne contient pas la colonne target. C’est la donnée sur laquelle vous appliquez le(s) modèle(s) que vous avez entraîné(s).
  • SampleSubmission.csv - montre le format de soumission pour cette compétition avec les ID a l’image de celle de Test.csv et la colonne ‘Target’ contenant vos traductions en Ewe ou Fongbe. L'ordre des lignes n'a pas d'importance, mais les noms de l'ID doivent être corrects.