Europeiske språk i faresonen for digital utryddelse
Analyser gjort av Europas fremst eksperter på språkteknologi advarer om at de fleste europeiske språkene sannsynligvis ikke vil overleve i den digitale tidsalderen
De fleste europeiske språkene står overfor en digital utryddelse, viser en ny rapport fra Europas fremste eksperter på språkteknologi. Ekspertene har vurdert tilstanden for språkteknologi for tretti av Europas nærmere åtti språk, og konkluderer med at den digitale støtten for 21 av språkene (70%) er “ikke-eksisterende” eller i beste fall “svak”. Studien ble gjennomført av META-NET, et europeisk forskningsnettverk (network of excellence) som består av 60 forskningssentre i 34 land.
Studien har blitt utført av mer enn 200 eksperter og er dokumentert i 30 bind av META-NETs hvitebokserie (tilgjengelig i papirform og på Internett). Den språkteknologiske støtten for hvert språk ble vurdert innenfor fire områder: maskinoversettelse, taleteknologi, tekstanalyse og tilgjengeligheten av basisressurser for forskning på, og utvikling av, språkteknologi. 70% av de undersøkte språkene, deriblant norsk, ble vurdert av ekspertene til å være i den laveste kategorien, ”svak eller ikke-eksisterende støtte” for minst ett av disse fire områdene. Ingen av språkene funnet å ha ”svært god” støtte, og bare engelsk ble vurdert til å ha ”god” støtte, mens språk som nederlandsk, fransk, tysk, italiensk og spansk ble funnet å ha ”moderat” støtte. Flere språk, blant annet islandsk, latvisk, litauisk og maltesisk havnet i laveste kategori på alle de fire områdene. Norge havnet i laveste kategori på området maskinoversettelse, d.v.s. teknologien for maskinoversettelse dekker i svært liten grad norsk. Norsk ble funnet å ha ”fragmentarisk” støtte i de tre øvrige undersøkte områdene, sammen med språk som svensk, dansk, bulgarsk, gresk, ungarsk og polsk, noe som plasserer disse blant språk med stor risiko for å falle utenfor i den teknologiske utviklingen.
”Resultatene er svært urovekkende. Flertallet av de europeiske språkene har en stor underdekning av ressurser, og noen er nærmest fullstendig neglisjert. I dette perspektivet er mange av språkene våre ikke klare for å møte fremtiden”, sier professor Hans Uzkoreit, META-NETs koordinator og forskningsleder ved DFKI (det tyske forskningssenteret for kunstig intelligens) og medredaktør av rapporten. Den andre medredaktøren, dr. Georg Rehm (DFKI) legger til: ”Det er dramatiske forskjeller når det gjelder språkteknologisk støtte for de ulike europeiske språkene og teknologiområdene. Gapet mellom ”store” og ”små” språk blir bare større og større. Vi må sikre at de små språkene med få språkteknologiske ressurser får de nødvendige basisteknologiene, ellers vil de være dømt til digital utryddelse“.
Det språkteknologiske feltet lager programvare som behandler menneskespråk i talt eller skriftlig form. Velkjente eksempler på språkteknologisk programvare er stave- og grammatikkontroller, interaktive personlige assistenter på smarttelefoner (slik som iPhones Siri), dialogsystemer som kan brukes på telefon, maskinoversettelsesverktøy (som Google Translate), og tale-til-tekst i GPS-systemene som brukes i biler. I dag baserer språkteknologiske systemer seg stort sett på statistiske metoder som krever ekstremt store datamengder. Statistiske systemer for språkteknologi har også begrensninger når det gjelder kvalitet, noe vi for eksempel ser i feiloversettelser i maskinoversettelsessystemer på Internett.
Europa har lykkes i å fjerne mange grenser mellom landene, men språkbarrierer finnes fremdeles. Dette er skadelig for det langsiktige målet om å etablere et felles digitalt marked fordi det hindrer fri flyt av varer, produkter og tjenester. Språkteknologi kan redusere språkbarrierene gjennom moderne maskinoversettelse, men META-NET-studien finner at teknologien for de fleste europeiske språk ennå ikke er god nok. Der er betydelige teknologisk mangler på grunn av det store fokuset på engelsk språk i forskning og utvikling, en mangel på forpliktelser og økonomiske ressurser, i tillegg til at vi mangler en klar visjon for forskning og teknologi.
META-NET mener at vi trenger en samordnet europeisk innsats i stor skala for å bygge ut teknologien som mangler til flertallet av språkene. Det er gode grunner for å gripe fatt i denne enorme utfordringen i en felles innsats mellom EU, EØS, de individuelle medlemslandene og den språkteknologiske industrien. Blant annet utgjør teknologiutvikling en stor kostnad per innbygger for mindre språksamfunn, teknologi kann til en viss grad overføres mellom språkene, der er en manglende interoperabilitet mellom ressurser, verktøy og tjenester, og språklige grenser sammenfaller ofte ikke med politiske grenser. Europa må handle for å gjøre sine språk klare for den digitale tidsalderen. De er en viktig del av vår kulturarv, og fortjener å være rede for fremtiden.
Språkteknologi: bakgrunn
Språkteknologi støtter oss allerede i dagliglivets gjøremål, som e-post eller billettkjøp på Internett. Vi bruker språkteknologi når vi søker i og oversetter nettsider, når vi bruker stavekontrollen i et tekstbehandlingsprogram, bruker underholdningssystemet i bilen eller talekommandoer på mobiltelefonen, når vi får anbefalinger i en nettbokhandel eller følger taleinstruksjoner fra en GPS-app. I en nær fremtid vil vi kunne snakke ikke bare til dataprogrammer, men også til maskiner og apparater, som de lenge etterlengtede tjenesterobotene som snart vil tas i bruk i hjem og på arbeidsplasser. Hvis vi trenger informasjon vil vi bare kunne be om det, uansett hvor vi er, og når vi trenger hjelp kan vi bare si høyt hva det gjelder. Å fjerne kommunikasjonsbarrieren mellom mennesker og teknologi vil forandre den verdenen vi lever i.
Språkteknologi er i dag allment ansett for å være et av de viktigste vekstområdene innen informasjonsteknologi. Store internasjonale selskaper som Google, Microsoft, IBM, og Nuance har gjort omfattende investeringer på området. I Europa har hundrevis av små og mellomstore bedrifter spesialisert seg på ulike språkteknologiske applikasjoner eller tjenester. Språkteknologi lar folk samarbeide, lære, drive forretninger og dele kunnskap på tvers av språkgrenser og uavhengig av nivået av datakunnskaper.
META-NETs hvitebokserie
META-NETs hvitebokserie ”Språk i det europeiske informasjonssamfunnet” beskriver situasjonen til 30 europeiske språk når det gjelder språkteknologi og viser de mest presserende utfordringene og mulighetene. Serien dekker alle de offisielle medlemslandene i EU og flere andre språk som brukes i Europa. Det finnes allerede en del verdifulle og omfattende vitenskapelige studier av visse aspekter ved språk og teknologi, men hittil har vi ikke hatt en lettfattelig oversikt over de viktigste funnene og utfordringene for hvert språk når det gjelder et flerspråklig Europa basert på språkteknologi. META-NETs hvitebokserie dekker dette behovet. META-NET kan nå vise hvorfor de fleste språkene står overfor alvorlige problemer, og hvor de mest alvorlig manglene ligger. Mer enn 200 forfattere og bidragsytere har bidratt til å utvikle språkrapportene.
Språkrapporter har blitt utviklet for de følgende europeiske språkene: baskisk, bulgarsk, dansk, engelsk, estisk, finsk, fransk, galisisk, gresk, islandsk, irsk, italiensk, katalansk, kroatisk, latvisk, litauisk, maltesisk, nederlandsk, norsk (bokmål og nynorsk), polsk, portugisisk, rumensk, serbisk, slovakisk, slovensk, spansk, svensk, tsjekkisk, tysk og ungarsk. Rapporten for hvert språk er skrevet på språket det behandler, og inkluderer en fullstendig oversettelse på engelsk.
Om META-NET og META
META-NET er et forskningsnettverk (Network of Excellence) bestående av 60 forskningssentre fra 34 land. Målet med META-NET er å bygge det teknologiske grunnlaget for et flerspråklig europeisk informasjonssamfunn. META-NET er delfinansiert av EU-kommisjonen gjennom fire ulike prosjekter.
META-NET bygger en allianse for språkteknologi i Europa, META (Multilingual Europe Technology Alliance). Mer enn 600 organisasjoner (forskningssentre, universiteteter, små og mellomstore bedrifter så vel som flere større selskaper) fra 55 land har allerede blitt med i denne åpne teknologi-alliansen.