MATFYZ 60 2012 - Matfyz 60 | Page 94

•  Podobnostní vyhledávání Katedra soft warového inženýrství http://www.ksi.mff.cuni.cz/ Softwarové inženýrství je zaměřeno na tvorbu a údržbu počítačových prog ramů, které využívají data. Tato data mohou být nejen tabulky, se- znamy nebo texty, ale i obrázky či videa, tj. multimediální data, ve kte- rých se vyhledává na základě podob- nosti. Výzkumná skupina: SIRET research group Web: www.siret.cz Výzkumná témata: Indexování podobnosti, multimediální explorační systémy, identifi kace pro- teinů, explorace chemického prostoru. Spolupráce: RWTH Aachen University, Univer- sity of Chile, Norwegian University of Science and Technology, Vysoká škola chemicko-technologická, Ma- sarykova Univerzita, VŠB – Tech- nická univerzita Ostrava. Multi média vyhledávaná podle „syrového“ obsahu Dnešní svět zažívá explozi nabídky multi- mediálního obsahu ať na webu či v samo- statných archivech, způsobenou masivním rozšířením digitálních zařízení pro zazna- menávání audio-vizuální reality. Jakkoliv se multimediální data stala běžnou sou - částí našich životů, jejich vyhledávání ne- bylo zdaleka vyřešeno. Pokud se nechceme spokojit s vyhledá- váním na základě textů k multimédiím „přilepených“, musíme se zabývat samot- ným „syrovým“ obsahem multimédií. Ta - ko vou formu vyhledávání můžeme potře- bovat častěji, než si myslíme. Uvažujme například obrovskou data - bá zi videozáznamů z bezpečnostních ka- mer na ulicích či letištích, čítající miliardy sním ků denně. Jak v této záplavě obrázků iden tifi kujeme teroristu? Pro další příklad nemusíme chodit do říše akčních fi lmů, stačí si prohlédnout náš vlastní digitální archiv fotografi í z dovolené. Zpravidla najdeme desítky či stovky tisíc nepopsaných fo to gra- fi í v desítkách adresářů na disku, a k to mu stovky hodin videa. Jak se v nich máme po deseti letech vyznat? Základem vyhledávání podle obsahu (content-based retrieval) v multimédiích je podobnostní vyhledávání  (similarity search). Pro tento účel je nutno specifi ko- vat model reprezentace multimediálních dokumentů tak, aby bylo možno efektivně měřit jejich podobnost. Na základě po dobnosti pak můžeme postavit celý me chanismus vyhledávání. Tradičním způso bem vyhledá- vání je dotazo vání – v případě podobnostního vyhledávání přímo vybraným dotazovým multimédiem (např. obrázkem). Ten to typ vyhledávání je vhodný tam, kde „víme co hle - dáme“, viz příklad s hledáním te roristy. V mnoha aplikacích ale často nevíme, co hle dáme, a spíše než cílené dotazování bychom uvítali možnost rychle zjistit, co zajímavého data - bá ze obsahuje, viz příklad s domácím archivem. V současnosti se problému interaktivního 92 Informati ka: Podobnostní vyhledávání