• Lingvisti cká
data
pro jazykové technologie
Osobní počítače jsou dnes běžnou součástí
života lidí všech věkových kategorií. Mno-
hým slouží jako daleko pohodlnější „psací
stroj“, téměř všichni uživatelé v nich též
vyhledávají informace všeho druhu.
Zásnuby lingvistiky a informatiky se
Všechny takové požadavky jsou založeny
u nás konaly už v roce 1958. K tr va-
na přirozeném jazyce; nároky na systémy
lému spojení posvěcenému úředně
auto matického zpracování jazyka ze strany
vznikem samostatného ústa vu a akre -
uživatelů proto rostou. Schopnosti, rozsah
ditací doktorského a ma gis terského
pa měti a rychlost soudobé počítačové tech-
stu dia matematické lingvistiky došlo
niky těmto požadavkům vycházejí vstříc.
v 90. letech. Vypadá to na dlouhodobé
Vyspělé počítačové technologie posky-
a multigenerační manželství.
tují základnu pro strojové učení. Stejně
Chcete, aby počítače překládaly
jako člověk se i stroj učí podle něčeho,
lépe než většina komerčních systémů,
tj. podle člověkem zadaných instrukcí.
a to jak z našeho jazy ka tak i do něj?
Ani strojové učení se tedy bez spolupráce
Chcete, aby gramatické korekto ry
s člověkem a jeho intelektem neobejde.
za chyti ly i rafi novanější chy by než
Co se tedy očekává, že informatik a ling-
„*zapoměla“, „*dvěmi“, ale i „*za-
vis ta pro splnění těchto zadání udělá?
sta vil se před dům“, ale ne „po sta vil
Informatik (1) digitalizuje jazykové
se před dům“ ? Chcete, aby hlasová
zdroje, texty příslušného jazyka (tj. vytváří
komunikace s automaty v češtině
jazykové kor pusy) a navrhuje nástroje
byla lid štější a infor movanější?
pro práci s těmito daty a poho dl né uživa-
Připojte se k nám a studujte u nás
telské prostředí pro přístup ke kor pu sům.
oba aspekty: informatiku i lingvistiku!
Lingvista (1) propracovává a předkládá
systémy, jak korpusy „označkovat“ potřeb-
nými údaji (tj. vytváří anotační schémata).
Dále tým složený z lingvistů (lingvista (2)) aplikuje anotační schémata na korpusové texty.
Reprezentativní bohatě gramaticky anotovaný korpus češtiny byl vytvořen v letech 1996 až
2006 na MFF UK v Ústavu formální a aplikované lingvistiky (ÚFAL) a je doma i ve světě
znám a užíván jako Pražský závislostní korpus.
Informatici (2) na základě takto zpracovaných dat navrhují a implementují automatické sys -
témy, které by měly v ideálním případě zastoupit lingvistu (2). Vytvářejí totiž ze zpraco vaných
dat „učebnici“, ze které se systémy učí. Protože však ona učebnice nebude nikdy ob sa ho vat
vše, s čím se v jazyce můžeme potkat, systémy nikdy nenahradí lingvistu (2) na 100 %.
Touto iterací informatik (1) – lingvista (1) – lingvista (2) – informatik (2) vzniká základna
pro systémy strojového překladu, automatic kého referování, indexování a sumarizace, či pro
systémy komunikace člověk – stroj a jejich uplatnění např. při zodpovídání dotazů.
Ústav formální
a aplikované lingvisti ky
100
Informati ka: Lingvisti cká data pro jazykové technologie