• Podobnostní
vyhledávání
Katedra soft warového
inženýrství
http://www.ksi.mff.cuni.cz/
Softwarové inženýrství je zaměřeno
na tvorbu a údržbu počítačových
prog ramů, které využívají data. Tato
data mohou být nejen tabulky, se-
znamy nebo texty, ale i obrázky či
videa, tj. multimediální data, ve kte-
rých se vyhledává na základě podob-
nosti.
Výzkumná skupina:
SIRET research group
Web: www.siret.cz
Výzkumná témata:
Indexování podobnosti, multimediální
explorační systémy, identifi kace pro-
teinů, explorace chemického prostoru.
Spolupráce:
RWTH Aachen University, Univer-
sity of Chile, Norwegian University
of Science and Technology, Vysoká
škola chemicko-technologická, Ma-
sarykova Univerzita, VŠB – Tech-
nická univerzita Ostrava.
Multi média vyhledávaná
podle „syrového“ obsahu
Dnešní svět zažívá explozi nabídky multi-
mediálního obsahu ať na webu či v samo-
statných archivech, způsobenou masivním
rozšířením digitálních zařízení pro zazna-
menávání audio-vizuální reality. Jakkoliv
se multimediální data stala běžnou sou -
částí našich životů, jejich vyhledávání ne-
bylo zdaleka vyřešeno.
Pokud se nechceme spokojit s vyhledá-
váním na základě textů k multimédiím
„přilepených“, musíme se zabývat samot-
ným „syrovým“ obsahem multimédií. Ta -
ko vou formu vyhledávání můžeme potře-
bovat častěji, než si myslíme.
Uvažujme například obrovskou data -
bá zi videozáznamů z bezpečnostních ka-
mer na ulicích či letištích, čítající miliardy
sním ků denně. Jak v této záplavě obrázků
iden tifi kujeme teroristu? Pro další příklad
nemusíme chodit do říše akčních fi lmů, stačí
si prohlédnout náš vlastní digitální archiv
fotografi í z dovolené. Zpravidla najdeme
desítky či stovky tisíc nepopsaných fo to gra-
fi í v desítkách adresářů na disku, a k to mu
stovky hodin videa. Jak se v nich máme po
deseti letech vyznat?
Základem vyhledávání podle obsahu
(content-based retrieval) v multimédiích
je podobnostní vyhledávání (similarity
search). Pro tento účel je nutno specifi ko-
vat model reprezentace multimediálních
dokumentů tak, aby bylo možno efektivně měřit jejich podobnost. Na základě po dobnosti
pak můžeme postavit celý me chanismus vyhledávání. Tradičním způso bem vyhledá-
vání je dotazo vání – v případě podobnostního vyhledávání přímo vybraným dotazovým
multimédiem (např. obrázkem). Ten to typ vyhledávání je vhodný tam, kde „víme co hle -
dáme“, viz příklad s hledáním te roristy. V mnoha aplikacích ale často nevíme, co hle dáme,
a spíše než cílené dotazování bychom uvítali možnost rychle zjistit, co zajímavého data -
bá ze obsahuje, viz příklad s domácím archivem. V současnosti se problému interaktivního
92
Informati ka: Podobnostní vyhledávání