Klasifikace XML dokumentů

Varování

Publikace nespadá pod Pedagogickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Autoři

PROCHÁZKA Martin BLAŤÁK Jan

Rok publikování 2005
Druh Článek ve sborníku
Konference Znalosti 2005, sborník příspěvků
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Informatika
Klíčová slova XML; XML mining; schemaless XML classification
Popis V tomto článku prezentujeme novou metodu pro klasifikaci XML dokumentů, která využívá nejen vlastní data uložená v dokumentu, ale také jeho strukturu. Přitom však nevyžaduje dodatečné informace jako XML schéma nebo DTD. Je navržena nová metoda pro transformaci XML dat do podoby jediné tabulky, kterou lze poté zpracovat stávajícími systémy strojového učení. Uvedeme analýzu výsledků experimentů na dokumentech vytvořených z Internet Movie Database (IMDb).
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.