Silnější vyhledávání slov pomocí nové matematické techniky
Síla a přesnost internetových vyhledávačů by mohla vzrůst díky aplikaci určitých matematických technik používaných například při zkoumání neuspořádanosti v kvantových systémech. Příslušné matematické postupy jsou totiž s to podchytit důležité struktury ve velkých souborech dat — tedy i na webových stránkách a v textových dokumentech.
S odvoláním na článek z Physical Review o tom informuje časopis New Scientist.
Současné vyhledávače při analýze textu za jedno z kritérií důležitosti slov považují jejich četnost. Ta je srovnávána s četností daných slov v běžných textech, a jestliže se nějaké slovo v dokumentu vyskytuje častěji, než činí průměr, vyhledávacím systémem je označeno za důležité.
Určování důležitosti klíčových slov by ale měla zásadně vylepšit nová matematická technika: to, jestli je slovo důležité, nezávisí na jeho četnosti, ale spíše na tom, kde slovo v textu stojí.
Autorem tohoto nápadu je Pedro Carpena, španělský fyzik z Malazské univerzity. Matematické techniky z tzv. teorie náhodných matic už v minulosti použil k analyzování kvantových systémů. Podle něj je možné poznatky z této oblasti matematiky použít i k identifikaci důležitých slov v dokumentech. Svou práci publikoval v časopise Physical Review E.
Carpena tvrdí, že důležitá slova mají tendenci vyskytovat se blízko sebe, kdežto běžné obraty se v textech objevují nahodileji. Podle něj má toto tvrzení i svůj logický základ: když autoři rozvíjejí nějaké zásadní myšlenky, je pravděpodobnější, že relevantní slova použijí víckrát za sebou v jenom odstavci nebo na stejné stránce. Obyčejná slova jako „a“ nebo „ale“ jsou z principu rozložené napříč celým textem.
V testech, které Carpena provedl, jeho nová technika fungovala docela dobře. Teorii náhodných matic použil k hledání klíčových slov v knize Alberta Einsteina Relavitita: Speciální a obecná teorie; mezi deseti nejpodstatnějšími slovy se objevily výrazy jako „vesmír“, „pole“, „gravitační“ a „energie“.
Technika vedla k zjištění zajímavých klíčových slov i tehdy, když Carpena z textového dokumentu odstranil mezery a počítači zadal zjistit význačné kombinace písmen složených ze 2 až 35 znaků. Z toho usuzuje, že jeho metoda by šla aplikovat i na soubory s mnohem abstraktnějším obsahem dat. Se svými kolegy ji v současnosti testuje na lidském genomu.
Oren Etzioni, počítačový odborník z Washingtonské univerzity v Seatllu, si však není jistý, zda tato metoda vyhledávání je lepší než ty stávající. Upozorňuje na to, že Carpena své výsledky bude ještě muset srovnat s existujícími technikami.
„K důležitým objevům často dohází tehdy, když člověk techniky z jedné disciplíny vyzkouší v jiném oboru. Tohle je potenciílně velice slibné, ale Carpenův tým se pouští do míst, kde je už hodně přecpáno,“ myslí si Etzioni.
VLOŽIT KOMENTÁŘ