MATFYZ 60 2012 - Matfyz 60 | Page 102

•  Lingvisti cká data  pro jazykové technologie Osobní počítače jsou dnes běžnou součástí života lidí všech věkových kategorií. Mno- hým slouží jako daleko pohodlnější „psací stroj“, téměř všichni uživatelé v nich též vyhledávají informace všeho druhu. Zásnuby lingvistiky a informatiky se Všechny takové požadavky jsou založeny u nás konaly už v roce 1958. K tr va- na přirozeném jazyce; nároky na systémy lému spojení posvěcenému úředně auto matického zpracování jazyka ze strany vznikem samostatného ústa vu a akre - uživatelů proto rostou. Schopnosti, rozsah ditací doktorského a ma gis terského pa měti a rychlost soudobé počítačové tech- stu dia matematické lingvistiky došlo niky těmto požadavkům vycházejí vstříc. v 90. letech. Vypadá to na dlouhodobé Vyspělé počítačové technologie posky- a multigenerační manželství. tují základnu pro strojové učení. Stejně Chcete, aby počítače překládaly jako člověk se i stroj učí podle něčeho, lépe než většina komerčních systémů, tj. podle člověkem zadaných instrukcí. a to jak z našeho jazy ka tak i do něj? Ani strojové učení se tedy bez spolupráce Chcete, aby gramatické korekto ry s člověkem a jeho intelektem neobejde. za chyti ly i rafi novanější chy by než Co se tedy očekává, že informatik a ling- „*zapoměla“, „*dvěmi“, ale i „*za- vis ta pro splnění těchto zadání udělá? sta vil se před dům“, ale ne „po sta vil Informatik (1) digitalizuje jazykové se před dům“ ? Chcete, aby hlasová zdroje, texty příslušného jazyka (tj. vytváří komunikace s automaty v češtině jazykové kor pusy) a navrhuje nástroje byla lid štější a infor movanější? pro práci s těmito daty a poho dl né uživa- Připojte se k nám a studujte u nás telské prostředí pro přístup ke kor pu sům. oba aspekty: informatiku i lingvistiku! Lingvista (1) propracovává a předkládá systémy, jak korpusy „označkovat“ potřeb- nými údaji (tj. vytváří anotační schémata). Dále tým složený z lingvistů (lingvista (2)) aplikuje anotační schémata na korpusové texty. Reprezentativní bohatě gramaticky anotovaný korpus češtiny byl vytvořen v letech 1996 až 2006 na MFF UK v Ústavu formální a aplikované lingvistiky (ÚFAL) a je doma i ve světě znám a užíván jako Pražský závislostní korpus. Informatici (2) na základě takto zpracovaných dat navrhují a implementují automatické sys - témy, které by měly v ideálním případě zastoupit lingvistu (2). Vytvářejí totiž ze zpraco vaných dat „učebnici“, ze které se systémy učí. Protože však ona učebnice nebude nikdy ob sa ho vat vše, s čím se v jazyce můžeme potkat, systémy nikdy nenahradí lingvistu (2) na 100 %. Touto iterací informatik (1) – lingvista (1) – lingvista (2) – informatik (2) vzniká základna pro systémy strojového překladu, automatic kého referování, indexování a sumarizace, či pro systémy komunikace člověk – stroj a jejich uplatnění např. při zodpovídání dotazů. Ústav formální a aplikované lingvisti ky 100 Informati ka: Lingvisti cká data pro jazykové technologie