Google i konsorcjum afrykańskich instytucji badawczych uruchomiły zbiór danych WAXAL, stanowiący nową inicjatywę mającą na celu rozwiązanie jednego z głównych wyzwań sztucznej inteligencji (AI) na kontynencie – niemożności interpretowania i rozumienia większości języków afrykańskich.
Projekt dostarcza obszerny, otwarty zbiór danych mowy obejmujący 21 języków Afryki Subsaharyjskiej i udostępnia technologię głosową ponad 100 milionom ludzi wykluczonych z gospodarki AI.
Zbiór danych WAXAL jest wynikiem trzyletniej współpracy finansowanej przez Google i kierowanej przez lokalne uniwersytety oraz grupy społeczne.
Obejmuje 1250 godzin transkrybowanej, naturalnej mowy oraz ponad 20 godzin nagrań studyjnych mających na celu budowanie syntetycznych głosów o wysokiej wierności. Dotyczy języków takich jak hausa, joruba, luganda, igbo i aczoli, z których wiele jest używanych przez dziesiątki milionów osób, ale pozostają w dużej mierze niewidoczne dla komercyjnych systemów rozpoznawania mowy.
Pomimo wszystkich rozmów o globalnej AI, technologie głosowe nadal silnie faworyzują angielski oraz wąską grupę języków europejskich i azjatyckich. Afryka, będąca domem dla ponad 2000 języków, została zepchnięta na margines.
Ta luka nie jest jedynie akademicka; określa ona, kto może korzystać z usług cyfrowych, kto ma dostęp do narzędzi edukacyjnych i zdrowotnych oraz kto może budować firmy w oparciu o nowoczesne platformy AI. Google przedstawiło tę pracę jako krok w kierunku zawężenia długotrwałej luki danych, która utrzymywała wiele języków afrykańskich poza asystentami głosowymi i innymi narzędziami.
Oprócz bezpośredniego rozwiązywania tej nierównowagi, projekt ma znaczenie równie istotne co same dane.
W przeciwieństwie do wcześniejszych inicjatyw, w których dane mowy afrykańskiej były wydobywane i były własnością podmiotów spoza kontynentu, WAXAL był kierowany lokalnie przez afrykańskie instytucje. Uniwersytet Makerere w Ugandzie, Uniwersytet Ghany oraz Digital Umuganda w Rwandzie nadzorowały zbieranie danych, angażowanie społeczności i zarządzanie językami, przy wsparciu technicznym Google Research Africa.
Co istotne, te instytucje zachowują własność danych. To znacząca zmiana w dziedzinie często krytykowanej za reprodukowanie dynamiki eksploatacji pod szyldem otwartości.
Według Aishy Walcott-Bryant, szefowej Google Research Africa: „Ostateczny wpływ WAXAL to wzmocnienie ludzi w Afryce. Ten zbiór danych stanowi kluczową podstawę dla studentów, badaczy i przedsiębiorców do budowania technologii na własnych warunkach, w swoich własnych językach, docierając w końcu do ponad 100 milionów ludzi".
„Czekamy na to, jak afrykańscy innowatorzy wykorzystają te dane do tworzenia wszystkiego, od nowych narzędzi edukacyjnych po usługi obsługiwane głosowo, które stworzą namacalne możliwości ekonomiczne na całym kontynencie" – dodała.
Aisha Walcott-Bryant, szefowa Google Research Africa
To ujęcie znajduje potwierdzenie w słowach przedstawicieli zaangażowanych uniwersytetów. Joyce Nakatumba-Nabende, starszy wykładowca na Uniwersytecie Makerere, powiedziała:
„Aby AI miała realny wpływ w Afryce, musi mówić naszymi językami i rozumieć nasze konteksty. Zbiór danych WAXAL daje naszym badaczom wysokiej jakości dane potrzebne do budowania technologii mowy, które odzwierciedlają nasze unikalne społeczności. W Ugandzie już wzmocnił on nasze lokalne możliwości badawcze i wsparł nowe projekty prowadzone przez studentów i wykładowców".
Na Uniwersytecie Ghany, profesor nadzwyczajny Isaac Wiafe wskazał na skalę zaangażowania publicznego:
„Dla nas na Uniwersytecie Ghany wpływ WAXAL wykracza poza same dane. Umożliwił nam budowanie własnych zasobów językowych i szkolenie nowego pokolenia badaczy AI. Ponad 7000 wolontariuszy dołączyło do nas, ponieważ chcieli, aby ich głosy i języki należały do cyfrowej przyszłości. Dziś ten wspólny wysiłek zapoczątkował ekosystem innowacji w dziedzinach takich jak zdrowie, edukacja i rolnictwo. To dowodzi, że gdy dane istnieją, możliwości rozszerzają się wszędzie".
Istnieją powody do ostrożnego optymizmu. Otwarte zbiory danych mowy mogą obniżać bariery dla lokalnych startupów i badaczy, którym brakuje zasobów do zbierania danych na dużą skalę. Mogą również zmniejszyć zależność od zagranicznych API, które rzadko dobrze obsługują języki afrykańskie, jeśli w ogóle.
Zbiór danych WAXAL
Niemniej jednak zbiory danych nie gwarantują rezultatów; budowanie niezawodnych systemów głosowych wymaga ciągłych inwestycji, lokalnego wdrożenia oraz ścieżek komercyjnych, które utrzymują wartość w kraju. Rola Google jako sponsora i organizatora będzie podlegać kontroli, szczególnie w kwestii tego, jak dane WAXAL będą wykorzystywane przez globalne firmy w przyszłości.
Na razie wydanie zbioru danych WAXAL oznacza konkretny krok w kierunku bardziej inkluzywnego językowo ekosystemu AI. Nie rozwiązuje to wyzwań AI w Afryce, ale odnosi się do fundamentalnego z nich. Głos jest często najbardziej naturalnym interfejsem technologii. Upewnienie się, że AI może usłyszeć, jak mówi Afryka, w całej jej różnorodności, jest już dawno spóźnione.
Post Google to train AI in 21 African languages, including Yoruba, Hausa and Igbo ukazał się najpierw na Technext.


