Common Voice

Common Voice est un projet de la Fondation Mozilla visant à créer une base de données libre (CC0 – domaine public) de phrases écrites et parlées (prononcées par différentes personnes avec différents accents) pour permettre la production de logiciels de reconnaissance vocale libres, et notamment de ne pas laisser l’innovation que peuvent constituer les assistants vocaux être appropriée par les grandes entreprises (Google Assistant, Siri, Amazon Echo etc.).

Site du projet Common Voice

Common Voice est le socle d’un programme plus large, Mozilla Voice, qui inclut aussi une recherche le moteur STT de transcription automatique de la voix et le moteur TTS de synthèse vocale.

Le moteur TTS

Common Voice proprement dit commence par la construction collaborative d’un corpus de textes qui seront ensuite lus par des contributeurs puis validées par d’autres contributeurs.

Il y a déjà plus de 400 000 phrases validées pour la version anglaise, totalisant plus de 500 heures en ayant mobilisé 20 000 internautes. Et en comptant les versions de toutes les langues concernées par le projet, plus de 600 000 phrases prononcées par 40 000 locuteurs.

Liste des langues développant actuellement un projet Common Voice

Le logiciel libre a permis depuis déjà quelques décennies la localisation (traduction dans les langues parlées par les populations au niveau local) des interfaces écrites, de façon professionnelle ou par des contributions indépendantes.

Cette localisation des logiciels est extrêmement importante sur le principe de l’autonomisation numérique des populations locales (dont la majorité ne parle pas le français, bien que les élites le parlent) et donc la réduction des inégalités.

Dans les fait elle se heurte néanmoins au fait que les efforts d’alphabétisation en langue locale, qui avaient notamment été menés massivement au Burkina Faso dans le milieu des années 80 et été un des principaux facteurs du recul de l’analphabétisme, n’ont pas été poursuivis après le changement de régime et que par conséquent la part de la population qui peut bénéficier de ces interfaces traduites n’est pas si nombreuse, d’autant que tous les logiciels n’ont pas été traduits (et que donc l’association entre nouvelles technologies et langues européennes reste une réalité).

Cependant, localiser les logiciels permet aussi à qui sait lire d’expliquer facilement les menus à des locuteurs locaux non alphabétisés, en évitant aux premiers d’avoir à faire la traduction à la volée, qui est une compétence bien plus complexe qu’elle ne le paraît généralement.

Malheureusement cette dernière pratique (la transmission de savoirs entre alphabétisés en français et utilisateurs non alphabétisés, qui est potentiellement massifiable) est assez rare car les outils sont peu diffusés (et parce que c’est limité à Firefox aussi, même Ubuntu n’est pas localisé, ce qui peut se comprendre vu la quasi-inexistance de Linux sur le marché au-delà d’une très faible minorité; de même de nos jours les menus Android sont l’interface la plus utilisée mais une diffusion d’une version entièrement en Mooré, Bamanan ou Pulaar – pour prendre les langues les plus courantes au Faso – ne peut se faire que pour des forks entièrement libres du genre LineageOS dont l’audience est forcément limitée).

La localisation des assistants vocaux que permettent et promettent Common Voice et Deep Speech est donc un enjeu bien plus important et dont les conséquences peuvent être vraiment intéressantes en terme de démocratisation des outils numériques en général et libres en particulier.

Le succès totalement imprévu du téléphone portable en Afrique montre bien le potentiel majeur qu’offre l’oralité pour l’appropriation des outils les plus modernes par les populations qui en sont apparemment les plus éloignées.

Un des intérêts de Common Voice est qu’une fois la plate-forme de localisation adaptée pour une nouvelle langue, le gros du travail ne demande pas de qualification particulière (à part savoir parler la langue, ce qui est quand même relativement courant dans le pays concerné) et peut donc être diffusé assez démocratiquement.

L’IST est très intéressée par contribuer au développement de ces outils qui peuvent constituer un atout majeur pour le développemment du pays et de la maîtrise populaire de la technologie, et par ailleurs Common Voice est un projet tout à fait adapté pour amener à une première contribution utile à tous des élèves ou étudiants n’ayant pas encore kes compétences informatiques poussées qui permettent de contribuer aux projets logiciels prorprement dits.

Ajouter un langage est tout à fait possible (et est en cours pour notamment le Kinyarwanda, le projet le plus avancé en ce qui concerne les langues proprement africaines) et se fait en trois étapes, traduire l’interface du site Common Voice et de l’application correspondante (environ 610 chaînes de caractères à l’heure actuelle), collecter un corpus d’au moins 5000 phrases nativement dans la langue correspondante (et non des traductions de phrases tirées du corpus de Common Voice anglais ou autres), puis lancer les contributions par la lecture de ces phrases.

À partir du moment où Wikipédia contient plus de 500 000 articles dans cette langue, on considère que les outils automatiques développés par Mozilla à cet effet sont suffisamment performants pour extraire directement depuis Wikipédia le corpus de phrases nécessaires au lancement de la troisième étape de Common Voice pour la langue concernée.

On est loin du compte pour les langues parlées au Burkina Faso, malheureusement.

Un deuxième mécanisme, le « collecteur de phrases » (Sentence Collector) est alors utilisé, partiellement basé sur la contribution collective, mais nécessitant un travail de validation qualifié.

Et tout simplement, l’IST ne compte pas de linguistes dans son personnel, et même si Common Voice a mis en place de nombreux outils efficaces pour automatiser au maximum la gestion de la contribution (et notamment pour assurer que la validation des contributions collectives se fasse elle-même sous la forme contributive et collective), il reste qu’assurer la qualité de l’ensemble est une responsabilité qui exige d’avoir une compréhension de la langue qui aille au-delà du simple bon sens (l’autre nom du préjugé).

Un enseignant de l'université Joseph Ki-Zerbo est très intéressé par le projet, ayant parfaitement compris les enjeux. Il est difficile de dire toutefois combien de temps cela peut prendre d'arriver à finaliser les deux premières étapes (traduction de l'interface de la plate-forme et collecte de phrases), d'autant que cela dépendra également des moyens disponibles.

En attendant, il est envisagé de se contenter d’inciter les élèves-contributeurs à contribuer à Common Voice en français. Cela a l’avantage de permettre au corpus audio francophone de prendre en compte la diversité des accents existants, limitant les biais relevés par Artie Bias (outil de détection des biais de la reconnaissance vocale, établi à partir de la base de données audio de Common Voice pour l’anglais).

On notera que Common Voice demande un maximum de quinze minutes d’audio par contributeur, le bénéfice pour le logiciel d’analyse de la base de données vocales diminuant fortement après celà.

Même si ces quinze minutes d’audio représentent un temps de travail nettement supérieur, et que le travail de validation des phrases lues par les autres contributeurs est tout à fait le bienvenu en parallèle ou après la production de ces quinze minutes d’audio, on voit ainsi que Common Voice peut tout à fait s’inscrire parmi les contributions proposées aux élèves et étudiants boursiers comme première étape de leur contribution, mais pas en constituer l’essentiel.