Effects of Selected Basic Algorithm Parameters and Data Features on Text Categorization by Support Vector Machines
Název česky | Vplyv vybraných základných parametrov a dátových atribútov na textovú kategorizáciu pomocou Support Vector Machines |
---|---|
Autoři | |
Rok publikování | 2005 |
Druh | Článek ve sborníku |
Konference | Znalosti 2005, sborník příspěvků |
Fakulta / Pracoviště MU | |
Citace | |
Obor | Informatika |
Klíčová slova | text categorization; support vector machines |
Popis | Tento článok popisuje výsledky získané z testovanie vplyvu vybraných dôležitých parametrov Support Vector Machines (SVM) aplikovaných na klasifikáciu textov Hlavným cieľom bolo zistiť, či výsledky získané štandardnými verejne dostupnými dátovými množinami (tradičné Reuters textové dokumenty a 20Newsgroups) môžu byť aplikované na skutočné medicínske texty získané z internetu používané lekármi. Výskum sa toež zameral na vlastnosti ako podobnosť dokumentov, vyváženosť kategórií, prítomnosť bežných slov a množstvo dokumentov. Výsledky testov ukazujú, že môťu nastať problémy s nastavením parametriv pre niektoré prirodzené dáta. Špeciálne medicínske dokumenty dávali zlé výsledky pretože skutočné kategórie neboli dobre vyvážené a dokumnety v rôznych kategóriách sa vzájomne prekrývali. Výsledok - SVM nedokáže vždy nájsť vhodnú deliacu nadrovinu na rozdiel od 'bezproblémových' dátových množín ako Reuters, či 20Newsgroups |
Související projekty: |