Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues

Varování

Publikace nespadá pod Pedagogickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Název česky Indexování a vyhledávání matematiky v digitálních knihovnách -- Architektura, návrh a škálovatelnost
Autoři

SOJKA Petr LÍŠKA Martin

Rok publikování 2011
Druh Článek ve sborníku
Konference Intelligent Computer Mathematics Lecture Notes in Computer Science, 2011, Volume 6824/2011
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www DOI
Doi http://dx.doi.org/10.1007/978-3-642-22673-1_16
Obor Informatika
Klíčová slova math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS
Popis Tento článek dává přehled přístupů a systémů pro vyhledávání matematických formulí v matematických korpusech či na webu. Je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je detailně diskutován. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byl ověřena na korpusu 324,000 odborných matematických článků z archivu arXiv s 112 miliony matematickými formulemi. To představovalo indexování více než dvou bilionů podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.