Filtering Very Similar Text Documents: A Case Study

Varování

Publikace nespadá pod Pedagogickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Filtrace velmi podobných textových dokumentů: Studie případu.
Autoři	HROZA Jiří ŽIŽKA Jan BOUREK Aleš
Rok publikování	2004
Druh	Článek ve sborníku
Konference	Computational linguistics and Intelligent Text Processing
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
Obor	Informatika
Klíčová slova	machine learning; text categorization; text filtration; text similarity
Popis	Článek popisuje problémy s klasifikací a filtrací podobných relevantních a nerelevantních reálných textových dokumentů z jedné velmi specifické domény, získané z internetových zdrojů. Kromě podobnosti jsou dokumenty často nevyváženy -- nedostatek nerelevantních dokumentů pro trénování. Je navržena definice podobnosti. Klasifikace byla testována pomocí šesti algoritmů z hlediska podobnosti textů. Nejlepší výsledky poskytly neuronové sítě založené na backpropagation a support vector machines s radiálními bázovými funkcemi.
Související projekty:	Interakce člověka s počítačem, dialogové systémy a asistivní technologie