Effects of Selected Basic Algorithm Parameters and Data Features on Text Categorization by Support Vector Machines

Varování

Publikace nespadá pod Pedagogickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Název česky Vplyv vybraných základných parametrov a dátových atribútov na textovú kategorizáciu pomocou Support Vector Machines
Autoři

HUDÍK Tomáš ŽIŽKA Jan

Rok publikování 2005
Druh Článek ve sborníku
Konference Znalosti 2005, sborník příspěvků
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Informatika
Klíčová slova text categorization; support vector machines
Popis Tento článok popisuje výsledky získané z testovanie vplyvu vybraných dôležitých parametrov Support Vector Machines (SVM) aplikovaných na klasifikáciu textov Hlavným cieľom bolo zistiť, či výsledky získané štandardnými verejne dostupnými dátovými množinami (tradičné Reuters textové dokumenty a 20Newsgroups) môžu byť aplikované na skutočné medicínske texty získané z internetu používané lekármi. Výskum sa toež zameral na vlastnosti ako podobnosť dokumentov, vyváženosť kategórií, prítomnosť bežných slov a množstvo dokumentov. Výsledky testov ukazujú, že môťu nastať problémy s nastavením parametriv pre niektoré prirodzené dáta. Špeciálne medicínske dokumenty dávali zlé výsledky pretože skutočné kategórie neboli dobre vyvážené a dokumnety v rôznych kategóriách sa vzájomne prekrývali. Výsledok - SVM nedokáže vždy nájsť vhodnú deliacu nadrovinu na rozdiel od 'bezproblémových' dátových množín ako Reuters, či 20Newsgroups
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.