Tutorial: Simple Machine Translation on low resource languages: French to Fongbe & Ewe
Ewe and Fongbe are Niger–Congo languages, part of a cluster of related languages commonly called Gbe. Fongbe is the major Gbe language of Benin (with approximately 4.1 million speakers), while Ewe is spoken in Togo and southeastern Ghana by approximately 4.5 million people as a first language and by a million others as a second language. They are closely related tonal languages, and both contain diacritics that can make them difficult to study, understand, and translate.
Although those languages are at the core of the economic and social life of at least 3 major West African capital cities (namely Cotonou, Lome and Accra), they are today mostly spoken and very rarely written. Due to that fact (among other reasons), there is very little official or formal communication in those languages, leaving non-French/English speakers often unable to access critical facilities like education, banking, and healthcare. This challenge is part of an initiative that wishes to bring down the barriers between African local language speakers and modern society.
The objective of this challenge is to create a machine translation system capable of converting text from French into Fongbe or Ewe. You may train one model per language or create a single model for both. You may not use any external data, so a key component of this competition is finding a way to work with the available data efficiently.
This is a pioneer competition as far as low-resourced West African languages are concerned. A good solution would be a model that can be improved upon or used by researchers across the world to create APIs that can be integrated into day-to-day tools like ATMs, delivery applications etc., and help bridge the gap between rural West Africa and the modernized services.
This competition is one of five NLP challenges we will be hosting on Zindi as part of AI4D’s ongoing African language NLP project, and is a continuation of the African language dataset challenges we hosted earlier this year. You can read more about the work here.
L’éwé et le fon sont des langues du Niger-Congo d’un cluster de langues similaires appelé communément Gbe. Le fon est la langue la plus parlée au Bénin avec approximativement 4.1 millions d’utilisateurs. L’éwé est parlé au Togo et dans le sud-est du Ghana par approximativement 4.5 millions de personnes comme première langue et par un million d’ autres personnes comme deuxième langue. Les deux langages ont beaucoup de similarités, sont tonales et contiennent des diacritiques qui peuvent les rendre difficiles à étudier.
Bien que ces langues soient au cœur de la vie économique et sociale d’au moins capitales principales ouest africaines (Cotonou, Lomé et Accra), elles sont bien plus parlées qu’écrites au jour d’aujourd’hui. Pour cette raison (entre autres raisons), il y a très peu de communication officielle ou formelle dans ces langues, laissant les non francophones / anglophones souvent incapables d'accéder aux services fondamentaux comme l'éducation, la banque, la santé, etc. Ainsi, cette compétition s'inscrit dans une initiative qui souhaite faire tomber les barrières entre les locuteurs de langues locales et la société moderne.
L'objectif de ce défi est de créer un système de traduction automatique capable de convertir du texte du français en Fongbe ou Ewe. Vous pouvez former un modèle par langue ou créer un seul modèle pour les deux. Vous ne pouvez pas utiliser de données externes, donc un élément clé de cette compétition est de trouver un moyen de travailler efficacement avec les données disponibles.
Il s'agit d'une compétition pionnière en ce qui concerne les langues d'Afrique de l'Ouest à faibles ressources. La meilleure solution pourrait être améliorée ou utilisée par des chercheurs du monde entier pour créer des API qui peuvent être intégrées dans des outils du quotidien tels que les guichets automatiques, les applications de livraison, etc. et aider à combler le fossé entre l'Afrique de l'Ouest rurale et les services modernisés.
Ce concours est l’un des cinq défis de NLP que nous organiserons sur Zindi dans le cadre du projet NLP en langue africaine en cours d’AI4D, et est une suite de la compétition organisée sur la création de jeux de données en langue africaine que nous avons organisés plus tôt cette année. Vous pouvez en savoir plus sur le travail ici.
About Takwimu Lab (takwimulab.gitlab.io)
TakwimuLab is an association of francophone west african who are professionals and enthusiasts about AI technologies. Our goal is to spread awareness about the challenges AI can help solve in our communities, disseminate knowledge and build solutions that can resolve real issues in our countries. Takwimu Lab is based in Benin. You can keep in touch with us through on:
TakwimuLab est une association de francophones ouest-africains professionnels et passionnés des technologies de l'IA. Notre objectif est de sensibiliser aux défis que l'IA peut aider à résoudre dans nos communautés, de diffuser des connaissances et de créer des solutions capables de résoudre de vrais problèmes dans nos pays. Takwimu Lab est basé au Bénin. Vous pouvez rester en contact avec nous via:
About AI4D-Africa; Artificial Intelligence for Development-Africa Network (ai4d.ai)
AI4D-Africa is a network of excellence in AI in sub-Saharan Africa. It is aimed at strengthening and developing community, scientific and technological excellence in a range of AI-related areas. It is composed of African Artificial Intelligence researchers, practitioners and policymakers.
IAPD-Afrique est un réseau d'excellence en IA en Afrique subsaharienne. Il vise à renforcer et à développer l'excellence communautaire, scientifique et technologique dans un champ de domaines liés à l'IA. Il est composé de chercheurs, de praticiens et de décideurs en intelligence artificielle africaine.
This challenge is open to all.
Teams and collaboration
You may participate in competitions as an individual or in a team of up to four people. When creating a team, the team must have a total submission count less than or equal to the maximum allowable submissions as of the formation date. A team will be allowed the maximum number of submissions for the competition, minus the total number of submissions among team members at team formation. Prizes are transferred only to the individual players or to the team leader.
Multiple accounts per user are not permitted, and neither is collaboration or membership across multiple teams. Individuals and their submissions originating from multiple accounts will be immediately disqualified from the platform.
Code must not be shared privately outside of a team. Any code that is shared, must be made available to all competition participants through the platform. (i.e. on the discussion boards).
The Zindi user who sets up a team is the default Team Leader. The Team Leader can invite other data scientists to their team. Invited data scientists can accept or reject invitations. Until a second data scientist accepts an invitation to join a team, the data scientist who initiated a team remains an individual on the leaderboard. No additional members may be added to teams within the final 5 days of the competition or the last hour of a hackathon, unless otherwise stated in the competition rules
A team can be disbanded if it has not yet made a submission. Once a submission is made individual members cannot leave the team.
All members in the team receive points associated with their ranking in the competition and there is no split or division of the points between team members.
Datasets and packages
The solution must use publicly-available, open-source packages only. Your models should not use any of the metadata provided.
You may use only the datasets provided for this competition. Automated machine learning tools such as automl are not permitted. You may also use the JW300 parallel dataset to augment the data.
You may use pretrained models as long as they are openly available to everyone.
The data used in this competition is the sole property of Zindi and the competition host. You may not transmit, duplicate, publish, redistribute or otherwise provide or make available any competition data to any party not participating in the Competition (this includes uploading the data to any public site such as Kaggle or GitHub). You may upload, store and work with the data on any cloud platform such as Google Colab, AWS or similar, as long as 1) the data remains private and 2) doing so does not contravene Zindi’s rules of use.
You must notify Zindi immediately upon learning of any unauthorised transmission of or unauthorised access to the competition data, and work with Zindi to rectify any unauthorised transmission or access.
Your solution must not infringe the rights of any third party and you must be legally entitled to assign ownership of all rights of copyright in and to the winning solution code to Zindi.
Submissions and winning
You may make a maximum of 10 submissions per day.
You may only make a maximum of 300 submissions for this competition.
Before the end of the competition, you need to choose 2 submissions to be judged on for the private leaderboard. If you do not make a selection your 2 best public leaderboard submissions will be used to score on the private leaderboard.
Zindi maintains a public leaderboard and a private leaderboard for each competition. The Public Leaderboard includes approximately 50% of the test dataset. While the competition is open, the Public Leaderboard will rank the submitted solutions by the accuracy score they achieve. Upon close of the competition, the Private Leaderboard, which covers the other 50% of the test dataset, will be made public and will constitute the final ranking for the competition.
Note that to count, your submission must first pass processing. If your submission fails during the processing step, it will not be counted and not receive a score; nor will it count against your daily submission limit. If you encounter problems with your submission file, your best course of action is to ask for advice on the Competition’s discussion forum.
If you are in the top 20 at the time the leaderboard closes, we will email you to request your code. On receipt of email, you will have 48 hours to respond and submit your code following the submission guidelines detailed below. Failure to respond will result in disqualification.
If your solution places 1st, 2nd, or 3rd on the final leaderboard, you will be required to submit your winning solution code to us for verification, and you thereby agree to assign all worldwide rights of copyright in and to such winning solution to Zindi.
If two solutions earn identical scores on the leaderboard, the tiebreaker will be the date and time in which the submission was made (the earlier solution will win).
If the error metric requires probabilities to be submitted, do not set thresholds (or round your probabilities) to improve your place on the leaderboard. In order to ensure that the client receives the best solution Zindi will need the raw probabilities. This will allow the clients to set thresholds to their own needs.
The winners will be paid via bank transfer, PayPal, or other international money transfer platform. International transfer fees will be deducted from the total prize amount, unless the prize money is under $500, in which case the international transfer fees will be covered by Zindi. In all cases, the winners are responsible for any other fees applied by their own bank or other institution for receiving the prize money. All taxes imposed on prizes are the sole responsibility of the winners. The top 3 winners or team leaders will be required to present Zindi with proof of identification, proof of residence and a letter from your bank confirming your banking details. Winners will be paid in USD or the currency of the competition. If your account cannot receive US Dollars or the currency of the competition then your bank will need to provide proof of this and Zindi will try to accommodate this.
You acknowledge and agree that Zindi may, without any obligation to do so, remove or disqualify an individual, team, or account if Zindi believes that such individual, team, or account is in violation of these rules. Entry into this competition constitutes your acceptance of these official competition rules.
Zindi is committed to providing solutions of value to our clients and partners. To this end, we reserve the right to disqualify your submission on the grounds of usability or value. This includes but is not limited to the use of data leaks or any other practices that we deem to compromise the inherent value of your solution.
Zindi also reserves the right to disqualify you and/or your submissions from any competition if we believe that you violated the rules or violated the spirit of the competition or the platform in any other way. The disqualifications are irrespective of your position on the leaderboard and completely at the discretion of Zindi.
Please refer to the FAQs and Terms of Use for additional rules that may apply to this competition. We reserve the right to update these rules at any time.
Reproducibility of submitted code
Data standards:
Consequences of breaking any rules of the competition or submission guidelines:
Monitoring of submissions
Ce challenge est ouvert à tous.
Équipes et collaboration
Vous pouvez participer aux compétitions en tant qu’individu ou en tant qu’équipe d’au plus quatre personnes. En créant une équipe, elle doit avoir un nombre total de soumission inférieur ou égal au nombre maximum permissible de soumissions à la date de la création de l’équipe. Une équipe sera autorisée à faire le nombre maximal de soumissions pour la compétition, moins le nombre total de soumissions entre membres de l’équipe à la date de la formation de l’équipe. Les prix sont transférés uniquement aux participants individuels ou aux chefs d’équipes.
De multiples comptes par utilisateur ne sont pas permis, de même que la collaboration ou l’appartenance à plusieurs équipes. Les individus ainsi que leurs soumissions provenant de comptes multiples seront automatiquement disqualifiés de la plateforme.
Le code ne doit pas être partagé en privé hors de l’équipe. Tout code partagé doit être rendu disponible à tous les participants de la compétition à travers la plateforme (c'est-à-dire dans le forum de discussion).
L’utilisateur Zindi qui crée une équipe est par défaut le chef d’équipe. Le chef d’équipe invite d’autres data scientists dans son équipe. Les data scientists invités peuvent accepter ou rejeter les invitations. Jusqu'à ce qu'un deuxième data scientist accepte une invitation à rejoindre une équipe, le data scientist qui a initié une équipe reste un individu dans le classement. Aucun membre supplémentaire ne peut être ajouté aux équipes dans les 5 derniers jours de la compétition ou la dernière heure d'un hackathon, sauf indication contraire dans le règlement de la compétition.
Une équipe peut être dissoute si elle n'a pas encore fait de soumission. Une fois qu'une soumission est faite, les membres individuels ne peuvent pas quitter l'équipe.
Tous les membres de l'équipe reçoivent des points associés à leur classement dans la compétition et il n'y a pas de partage ou de division des points entre les membres de l'équipe.
Ensembles de données et packages
La solution doit utiliser uniquement des packages open source accessibles au public. Vos modèles ne doivent utiliser aucune des métadonnées fournies.
Vous ne pouvez utiliser que les ensembles de données fournis pour la compétition. Les outils d'apprentissage automatique automatisés tels que automl ne sont pas autorisés.
Vous pouvez utiliser des modèles pré-entraînés tant qu'ils sont ouverts à tous.
Les données utilisées dans la compétition sont la propriété exclusive de Zindi et de l'hôte de la compétition. Vous ne pouvez pas transmettre, dupliquer, publier, redistribuer ou autrement fournir ou mettre à disposition des données de la compétition à une partie ne participant pas au concours (cela comprend le téléchargement des données sur un site public tel que Kaggle ou GitHub). Vous pouvez télécharger, stocker et utiliser les données sur toute plate-forme cloud telle que Google Colab, AWS ou similaire, tant que 1) les données restent privées et 2) cela n’enfreint pas aux règles d'utilisations de Zindi.
Vous devez informer Zindi immédiatement après avoir appris toute transmission non autorisée ou accès non autorisé aux données de la compétition, et travailler avec Zindi pour rectifier toute transmission ou accès non autorisé.
Votre solution ne doit enfreindre les droits d'aucun tiers et vous devez être légalement autorisé à céder la propriété de tous les droits d'auteur sur et sur le code de la solution gagnante à Zindi.
Soumissions et gagnants
Vous pouvez faire un maximum de 10 soumissions par jour. Votre solution la plus performante du classement privé à la fin de la compétition sera celle par laquelle vous serez jugé.
Vous ne pouvez faire qu'un maximum de 300 soumissions pour la compétition.
Zindi maintient un classement public et un classement privépour chaque compétition. Le classement public comprend environ 50% de l'ensemble de données de test. Pendant que la compétition est ouverte, le classement public classera les solutions soumises en fonction du score de précision qu'elles obtiennent. À la clôture de la compétition, le classement privé, qui couvre les 50% restants de l'ensemble de données de test, sera rendu public et constituera le classement final de la compétition.
Notez que pour que votre soumission soit prise en compte, elle doit d'abord réussir le traitement. Si votre soumission échoue pendant l'étape de traitement, elle ne sera pas comptée et ne recevra pas de score; il ne comptera pas non plus dans votre limite de soumission quotidienne. Si vous rencontrez des problèmes avec votre dossier de soumission, la meilleure solution consiste à demander conseil sur le forum de discussion de la compétition.
Si vous êtes dans le top 20 au moment de la clôture du classement, nous vous enverrons un e-mail pour demander votre code. Dès réception de l'e-mail, vous aurez 48 heures pour répondre et soumettre votre code en suivant les directives de soumission détaillées ci-dessous. Le fait de ne pas répondre entraînera la disqualification.
Si votre solution se classe 1ère, 2ème ou 3ème dans le classement final, vous devrez nous soumettre votre code de solution gagnante pour vérification, et vous acceptez ainsi de céder tous les droits mondiaux de copyright sur ces solutions gagnantes à Zindi.
Si deux solutions obtiennent des scores identiques dans le classement, le critère de départagement sera la date et l'heure auxquelles la soumission a été faite (the earlier solution will win).
Si la métrique d'erreur nécessite la soumission de probabilités, ne définissez pas de seuils (ou arrondissez vos probabilités) pour améliorer votre place dans le classement. Afin de s'assurer que le client reçoit la meilleure solution, Zindi aura besoin des probabilités brutes. Cela permettra aux clients de définir des seuils en fonction de leurs propres besoins.
Les gagnants seront payés par virement bancaire, PayPal ou autre plateforme de transfert d'argent international. Les frais de transfert international seront déduits du montant total du prix, sauf si le montant du prix est inférieur à 500 $, auquel cas les frais de transfert international seront couverts par Zindi. Dans tous les cas, les gagnants sont responsables de tous les autres frais appliqués par leur propre banque ou autre institution pour recevoir le prix en argent. Toutes les taxes imposées sur les prix sont à la charge exclusive des gagnants. Les 3 meilleurs gagnants ou chefs d'équipe devront présenter à Zindi une pièce d'identité, une preuve de résidence et une lettre de votre banque confirmant vos coordonnées bancaires.
Vous reconnaissez et acceptez que Zindi peut, sans aucune obligation de le faire, supprimer ou disqualifier un individu, une équipe ou un compte si Zindi estime que cet individu, cette équipe ou ce compte enfreint ces règles. La participation à cette compétition constitue votre acceptation de ces règles officielles de la compétition.
Zindi s'engage à fournir des solutions de valeur à nos clients et partenaires. À cette fin, nous nous réservons le droit de disqualifier votre soumission pour des raisons d'utilisabilité ou de valeur. Cela inclut, mais sans s'y limiter, l'utilisation de fuites de données ou toute autre pratique que nous jugeons compromettre la valeur intrinsèque de votre solution.
Zindi se réserve également le droit de vous disqualifier et / ou vos soumissions de tout concours si nous pensons que vous avez violé les règles ou violé l'esprit du concours ou de la plateforme de toute autre manière. Les disqualifications sont indépendamment de votre position dans le classement et entièrement à la discrétion de Zindi.
Veuillez consulter la FAQ et les conditions d'utilisation pour connaître les règles supplémentaires susceptibles de s'appliquer à ce concours. Nous nous réservons le droit de mettre à jour ces règles à tout moment.
Reproductibilité du code soumis
Standards de données:
Conséquences d’infraction aux règles de la compétition ou aux instructions de soumission :
Contrôle des soumissions
Si vous ne soumettez pas votre code en 24 heures, vous serez disqualifiés de gagner n’importe quelle compétition sur Zindi pour les 6 prochains mois. Si vous faîtes de nouveau l’objet de suspicions, que votre code est demandé et que vous ne le soumettez pas dans les 24 heures, votre compte zindi sera désactivé et vous serez disqualifié de victoire sur Zindi points dans n’importe quelle compétition et avec n’importe quel autre compte.
The error metric for this competition is Rouge Score, ROUGE-N (N-gram) scoring (Rouge1), reporting the F-measure.
This error metric was implemented on 5 May 2021 and the leaderboard rescored.
The Recall-Oriented Understudy for Gisting Evaluation (ROUGE) scoring algorithm calculates the similarity between a candidate document and a collection of reference documents. Use the ROUGE score to evaluate the quality of document translation and summarization models [ref].
For every row in the dataset, submission files should contain 2 columns: ID and translation.
Your submission file should look like this:
ID Target ID_AAAAhgRX Mettez-vous en rang... ID_AAGuzGzi Son doigt lui fait mal...
1st Place: $1 000 USD
2nd Place: $600 USD
3rd Place: $400 USD
Competition closes on 30 May 2021.
Final submissions must be received by 11:59 PM GMT.
We reserve the right to update the contest timeline if necessary.
La compétition se termine le 30 Mai 2021.
Les soumissions finales doivent avoir été reçues au plus tard à 23:59 GMT.
Nous nous réservons le droit de mettre à jour la chronologie de la compétition si nécessaire.