Mining Relevant Text Documents Using Ranking-Based k-NN Algorithms Trained by Only Positive Examples
Název česky | Dolování relevantních textových dokumentů algoritmem k-NN trénovaným pouze pomocí pozitivních příkladů |
---|---|
Autoři | |
Rok publikování | 2005 |
Druh | Článek ve sborníku |
Konference | Znalosti 2005, sborník příspěvků |
Fakulta / Pracoviště MU | |
Citace | |
Obor | Informatika |
Klíčová slova | ranking; text categorization; k-NN |
Popis | Problém dolování relevantních informací z velkého množství nestrukturovaných textů je často řešen pomocí metod strojového učení, které jsou trénovány na pozitivních i negativních příkladech připravených expertem dané oblasti. Avšak pokud jsou k dispozici pouze pozitivní příklady, je třeba tyto algoritmy modifikovat. Metoda k-NN modifikovaná pro učení se pouze z pozitivních příkladů umožňuje klasifikovat neznámé dokumenty formou seřazení na základě jejich podobnosti. Tímto způsobem je možné získat dostatek relevantních dokumentů s velmi vysokou přesností. Hlavním cílem bylo nalézt metodu umožňující dolovat relevantní dokumenty z velkého množství (stovek či tísíců) podobných lékařských textů. Experimenty s reálnými datovými sadami poskytují -- za daných podmínek -- přijatelné výsledky z pohledu závislosti přesnosti na pokrytí. |
Související projekty: |