Google et un consortium d'institutions de recherche africaines ont lancé l'ensemble de données WAXAL, un nouveau projet majeur visant à… L'article Google va former l'IA dans 21 langues africainesGoogle et un consortium d'institutions de recherche africaines ont lancé l'ensemble de données WAXAL, un nouveau projet majeur visant à… L'article Google va former l'IA dans 21 langues africaines

Google va former l'IA dans 21 langues africaines, dont le yoruba, le haoussa et l'igbo

2026/02/02 22:00

Google et un consortium d'institutions de recherche africaines ont lancé l'ensemble de données WAXAL, un nouvel effort majeur visant à corriger l'un des principaux défis de l'intelligence artificielle (IA) sur le continent : son incapacité à interpréter et comprendre la plupart des langues africaines.

Le projet fournit un vaste ensemble de données vocales ouvertes couvrant 21 langues d'Afrique subsaharienne et apporte la technologie vocale à plus de 100 millions de personnes exclues de l'économie de l'IA.

L'ensemble de données WAXAL est le fruit d'une collaboration de trois ans financée par Google et dirigée par des universités locales et des groupes communautaires.

Il comprend 1 250 heures de parole naturelle transcrite et plus de 20 heures d'enregistrements de qualité studio visant à créer des voix synthétiques de haute fidélité. Il cible des langues telles que le haoussa, le yoruba, le luganda, l'igbo et l'acholi, dont beaucoup sont parlées par des dizaines de millions de personnes mais restent largement invisibles aux systèmes de reconnaissance vocale commerciaux.

Google et les universités africaines lancent l'ensemble de données WAXAL pour former l'IA dans 21 langues africaines, dont le yoruba, le haoussa et l'igbo

Malgré tous les discours sur l'IA mondiale, les technologies vocales restent fortement orientées vers l'anglais et une poignée restreinte de langues européennes et asiatiques. L'Afrique, qui abrite plus de 2 000 langues, a été laissée en marge.

Cet écart n'est pas théorique ; il détermine qui peut utiliser les services numériques, qui peut accéder aux outils d'éducation et de santé, et qui peut créer des entreprises sur les plateformes d'IA modernes. Google a présenté ce travail comme une étape vers la réduction d'une lacune persistante en matière de données qui a maintenu de nombreuses langues africaines hors des assistants vocaux et autres outils.

Pourquoi l'ensemble de données WAXAL est important pour l'architecture de l'IA en Afrique

Au-delà de la résolution directe de ce déséquilibre, le projet compte autant que les données elles-mêmes.

Contrairement aux initiatives antérieures où les données vocales africaines étaient extraites et détenues ailleurs, WAXAL a été dirigé sur le terrain par des institutions africaines. L'Université Makerere en Ouganda, l'Université du Ghana et Digital Umuganda au Rwanda ont supervisé la collecte de données, l'engagement communautaire et la gestion linguistique, avec le soutien technique de Google Research Africa.

Élément crucial, ces institutions conservent la propriété des données. Il s'agit d'un changement notable dans un domaine souvent critiqué pour reproduire des dynamiques extractives sous la bannière de l'ouverture.

Selon Aisha Walcott-Bryant, responsable de Google Research Africa : « L'impact ultime de WAXAL est l'autonomisation des populations en Afrique. Cet ensemble de données fournit la base essentielle pour que les étudiants, les chercheurs et les entrepreneurs construisent la technologie selon leurs propres conditions, dans leurs propres langues, atteignant enfin plus de 100 millions de personnes. »

« Nous sommes impatients de voir les innovateurs africains utiliser ces données pour créer tout, des nouveaux outils éducatifs aux services vocaux qui créent des opportunités économiques tangibles à travers le continent », a-t-elle ajouté. 

Google et les universités africaines lancent l'ensemble de données WAXAL pour former l'IA dans 21 langues africaines, dont le yoruba, le haoussa et l'igboAisha Walcott-Bryant, responsable de Google Research Africa

Ce cadrage est repris par les universités impliquées. Joyce Nakatumba-Nabende, maître de conférences à l'Université Makerere, a déclaré :

« Pour que l'IA ait un impact réel en Afrique, elle doit parler nos langues et comprendre nos contextes. L'ensemble de données WAXAL fournit à nos chercheurs les données de haute qualité dont ils ont besoin pour créer des technologies vocales qui reflètent nos communautés uniques. En Ouganda, il a déjà renforcé notre capacité de recherche locale et soutenu de nouveaux projets menés par des étudiants et des professeurs. »

À l'Université du Ghana, le professeur associé Isaac Wiafe a souligné l'ampleur de l'engagement public : 

« Pour nous à l'Université du Ghana, l'impact de WAXAL va au-delà des données elles-mêmes. Il nous a permis de construire nos propres ressources linguistiques et de former une nouvelle génération de chercheurs en IA. Plus de 7 000 bénévoles nous ont rejoints parce qu'ils voulaient que leurs voix et leurs langues appartiennent à l'avenir numérique. Aujourd'hui, cet effort collectif a déclenché un écosystème d'innovation dans des domaines comme la santé, l'éducation et l'agriculture. Cela prouve que lorsque les données existent, les possibilités s'étendent partout. »

Il y a des raisons d'être prudemment optimiste. Les ensembles de données vocales ouvertes peuvent réduire les obstacles pour les startups locales et les chercheurs qui manquent de ressources pour collecter des données à grande échelle. Elles peuvent également réduire la dépendance aux API étrangères qui prennent rarement en charge les langues africaines, voire pas du tout.

Google et les universités africaines lancent l'ensemble de données WAXAL pour former l'IA dans 21 langues africaines, dont le yoruba, le haoussa et l'igboL'ensemble de données WAXAL

Néanmoins, les ensembles de données ne garantissent pas les résultats ; la construction de systèmes vocaux fiables nécessite un investissement soutenu, un déploiement local et des voies commerciales qui maintiennent la valeur dans le pays. Le rôle de Google en tant que financeur et organisateur fera l'objet d'un examen minutieux, en particulier concernant la manière dont les données WAXAL seront utilisées par les entreprises mondiales à l'avenir.

Pour l'instant, la publication de l'ensemble de données WAXAL marque une étape concrète vers un écosystème d'IA plus inclusif linguistiquement. Il ne résout pas les défis de l'IA en Afrique, mais il répond à un défi fondamental. La voix est souvent l'interface la plus naturelle avec la technologie. S'assurer que l'IA peut entendre l'Afrique parler, dans toute sa diversité, est attendu depuis longtemps.

L'article Google forme l'IA dans 21 langues africaines, dont le yoruba, le haoussa et l'igbo est apparu en premier sur Technext.

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.