Au moins 21 langues européennes en danger d’extinction numérique !
Une étude menée par un groupe d’experts européens en technologies de la langue met en garde : la plupart des langues européennes pourraient ne pas survivre à l’ère du numérique.
La plupart des langues européennes sont menacées d’extinction numérique, c’est ce que révèle une étude récente menée par un collège d’experts européens en technologies de la langue. Lorsqu’ils ont évalué le niveau des technologies de la langue pour 30 des 80 langues européennes, les experts ont conclu que, pour 21 des 30 langues étudiées, le soutien numérique était « inexistant » ou au mieux « faible ». L’étude a été menée par META-NET, un réseau d’excellence européen composé de 60 centres de recherche répartis dans 34 pays.
L’étude, élaborée par plus de 200 experts et publiée dans une collection de Livres blancs META-NET (30 volumes disponibles en ligne et sur papier), a évalué le soutien technologique pour chaque langue dans quatre domaines : la traduction automatique, l’interaction vocale, l’analyse textuelle et la disponibilité de ressources linguistiques. Au total, 21 des 30 langues (soit 70%) sont placées dans la catégorie la plus basse : « soutien faible ou inexistant » dans au moins un des quatre domaines définis par les experts. Dans plusieurs cas, notamment pour l’islandais, le letton, le lituanien et le maltais, le score minimal a été attribué pour les quatre domaines. A l’autre extrême, et bien qu’il s’avère qu’aucune langue ne dispose d’un « excellent soutien », seul l’anglais est présenté comme disposant d’un « bon soutien », suivi de langues telles que l’allemand, l’espagnol, le français, l’italien et le néerlandais qui bénéficient d’un « soutien moyen ». Des langues telles que le basque, le bulgare, le catalan, le grec, le hongrois et le polonais présentent un « soutien marginal », qui les place également dans la catégorie des langues en danger.
Les éditeurs de l‘étude indiquent que « Les résultats sont particulièrement alarmants. La majorité des langues européennes manquent sérieusement de technologies et certaines d’entre elles en sont presque complètement dépourvues. A cet égard, on peut dire que de nombreuses langues ne sont pas encore sûres de leur avenir.», et ils ajoutent « Il y a des différences spectaculaires entre les différentes langues européennes pour ces différentes technologies. L’écart entre les « grandes » et les « petites » langues ne cesse de croître. Nous devons nous assurer que nous équipons toutes les langues (y compris les plus petites et les moins dotées) des technologies de base nécessaires, sinon ces langues sont condamnées à l’extinction numérique. ».
Le domaine des technologies de la langue produit des logiciels permettant le traitement automatique du langage humain écrit ou parlé. Les exemples les plus connus de ces logiciels sont les correcteurs orthographiques et grammaticaux, les assistants personnels interactifs sur les smartphones (Siri sur l’iPhone d’Apple, par exemple), les systèmes de dialogue oral par téléphone, les systèmes de traduction automatique (comme Google Translate), les moteurs de recherche sur le web ou la synthèse vocale utilisée par les GPS dans les voitures. Les systèmes de traitement automatique de la langue reposent aujourd’hui sur des méthodes statistiques qui requièrent d’énormes volumes de données écrites ou parlées. Pour les langues dont le nombre de locuteurs est peu élevé, l’acquisition de la masse de données nécessaires peut s’avérer difficile. D’un point de vue qualitatif, les performances des systèmes de traitement automatique de la langue sont encore intrinsèquement limitées ; on pense notamment aux exemples parfois amusants des traductions produites par les systèmes de traduction automatique en ligne.
L’Europe est parvenue à supprimer presque toutes les frontières entre les Etats membres. L’une d’entre elles semble toutefois infranchissable : c’est la frontière invisible des barrières linguistiques qui entrave la libre circulation de la connaissance et de l’information, et qui compromet également la mise en place d’un marché unique numérique en freinant la libre circulation des biens, des produits et des services. Alors que les technologies de la langue peuvent contribuer à éliminer ces barrières linguistiques grâce aux systèmes de traduction automatique modernes, les résultats de l’étude META-NET indiquent clairement que de nombreuses langues ne sont pas encore outillées. On peut imputer l’importance des écarts technologiques à la concentration monolithique des efforts de R&D sur l’anglais, au manque d’engagement et d’investissements financiers mais aussi à l’absence d’une démarche européenne coordonnée en matière de recherche technologique.
Un effort concerté et de grande envergure doit être entrepris au niveau européen à la fois pour créer les technologies manquantes et pour déployer ces technologies vers la majorité des langues. Il existe de bonnes raisons de mutualiser les efforts de l’Union européenne, de ses Etats membres, des pays associés et de l’industrie pour relever cet immense défi, comme le coût financier par habitant, élevé pour les communautés linguistiques de moindre importance, l’intérêt d’un transfert technologique entre les langues, la nécessité de l’interopérabilité des ressources, des outils et des services, ou le fait que les frontières linguistiques ne coïncident pas nécessairement avec les frontières politiques. L’Europe doit prendre des mesures pour préparer ses langues à survivre dans l’ère numérique. Elles sont une composante précieuse de son héritage culturel, et méritent qu’on assure leur pérennité. L’étude de META-NET est un rappel brutal des défis et des enjeux auxquels elles sont confrontées, alors qu’est célébrée, le 26 septembre, la Journée européenne des langues, à l’initiative du Conseil de l’Europe.
Technologies de la langue : le contexte
Rédiger un mél, acheter un billet d’avion en ligne, rechercher des informations sur le web ou traduire un document, procéder à la vérification orthographique ou grammaticale d’un texte, utiliser les fonctions d’un téléphone mobile au moyen de commandes vocales, obtenir des conseils dans une librairie en ligne ou suivre les instructions parlées d’un système de navigation mobile sont autant d’applications du traitement automatique de la langue que nous utilisons déjà au quotidien. Dans un futur proche, nous pourrons converser avec les ordinateurs de même qu’avec les machines et les équipements domestiques, y compris les robots de service qui entreront bientôt dans nos maisons et sur nos lieux de travail. Supprimer la barrière de la communication entre les hommes et les machines va changer le monde qui nous entoure. Les technologies de la langue sont actuellement reconnues comme l’un des secteurs les plus dynamiques des technologies de l’information. De grandes sociétés internationales telles que Google, Microsoft, IBM, Apple ou Nuance ont investi de façon substantielle dans ce domaine. En Europe, des centaines de PME se sont spécialisées dans des types d’applications ou de services utilisant les technologies de la langue qui permettent aux hommes de collaborer, de faire des affaires et de partager la connaissance en franchissant la barrière des langues.
La collection de Livres blancs META-NET
La collection de Livres blancs META-NET “Les langues dans la société de l’information en Europe” rend compte de l’état de 30 langues européennes au regard des technologies de la langue, et indique les risques encourus et les occasions à saisir de manière urgente. Cette collection couvre toutes les langues officielles des Etats membres de l’Union européenne et d’autres langues parlées en Europe : allemand, anglais, basque, bulgare, catalan, croate, danois, néerlandais, espagnol, estonien, finnois, français, galicien, grec, hongrois, irlandais, islandais, italien, letton, lituanien, maltais, norvégien (bokmål et nynorsk), polonais, portugais, roumain, serbe, slovaque, slovène, suédois et tchèque. Chaque livre blanc est écrit dans la langue qu’il décrit et comprend aussi une traduction en anglais. S’il existe déjà un certain nombre d’études scientifiques qui couvrent certains aspects des langues et des technologies, il n’y avait pas encore de document de vulgarisation qui dresse un tel état des lieux et présente les principaux défis à relever pour chacune des langues dans le contexte d’une Europe multilingue rendue possible grâce aux technologies. La collection de Livres blancs de META-NET vient combler cette lacune. Au total, plus de 200 auteurs et contributeurs ont travaillé à l’élaboration des Livres blancs.
A propos de META-NET et de META
META-NET est un Réseau d’Excellence soutenu par la Commission européenne et constitué de 60 centres de recherche de 34 pays qui se consacre à jeter les bases technologiques d’une société de l’information européenne multilingue. META-NET forge META, l’alliance technologique pour une Europe multilingue, communauté grandissante de professionnels et d’organisations travaillant dans le domaine des technologies de la langue en Europe. Plus de 600 organisations de 55 pays, centres de recherche, universités, PME et grandes entreprises, ont déjà rejoint cette alliance technologique ouverte.