Mining Relevant Text Documents Using Ranking-Based k-NN Algorithms Trained by Only Positive Examples

Varování

Publikace nespadá pod Pedagogickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Dolování relevantních textových dokumentů algoritmem k-NN trénovaným pouze pomocí pozitivních příkladů
Autoři	HROZA Jiří ŽIŽKA Jan
Rok publikování	2005
Druh	Článek ve sborníku
Konference	Znalosti 2005, sborník příspěvků
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
Obor	Informatika
Klíčová slova	ranking; text categorization; k-NN
Popis	Problém dolování relevantních informací z velkého množství nestrukturovaných textů je často řešen pomocí metod strojového učení, které jsou trénovány na pozitivních i negativních příkladech připravených expertem dané oblasti. Avšak pokud jsou k dispozici pouze pozitivní příklady, je třeba tyto algoritmy modifikovat. Metoda k-NN modifikovaná pro učení se pouze z pozitivních příkladů umožňuje klasifikovat neznámé dokumenty formou seřazení na základě jejich podobnosti. Tímto způsobem je možné získat dostatek relevantních dokumentů s velmi vysokou přesností. Hlavním cílem bylo nalézt metodu umožňující dolovat relevantní dokumenty z velkého množství (stovek či tísíců) podobných lékařských textů. Experimenty s reálnými datovými sadami poskytují -- za daných podmínek -- přijatelné výsledky z pohledu závislosti přesnosti na pokrytí.
Související projekty:	Interakce člověka s počítačem, dialogové systémy a asistivní technologie