Filtering Very Similar Text Documents: A Case Study
Název česky | Filtrace velmi podobných textových dokumentů: Studie případu. |
---|---|
Autoři | |
Rok publikování | 2004 |
Druh | Článek ve sborníku |
Konference | Computational linguistics and Intelligent Text Processing |
Fakulta / Pracoviště MU | |
Citace | |
Obor | Informatika |
Klíčová slova | machine learning; text categorization; text filtration; text similarity |
Popis | Článek popisuje problémy s klasifikací a filtrací podobných relevantních a nerelevantních reálných textových dokumentů z jedné velmi specifické domény, získané z internetových zdrojů. Kromě podobnosti jsou dokumenty často nevyváženy -- nedostatek nerelevantních dokumentů pro trénování. Je navržena definice podobnosti. Klasifikace byla testována pomocí šesti algoritmů z hlediska podobnosti textů. Nejlepší výsledky poskytly neuronové sítě založené na backpropagation a support vector machines s radiálními bázovými funkcemi. |
Související projekty: |