Filtering Very Similar Text Documents: A Case Study

Varování

Publikace nespadá pod Pedagogickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Název česky Filtrace velmi podobných textových dokumentů: Studie případu.
Autoři

HROZA Jiří ŽIŽKA Jan BOUREK Aleš

Rok publikování 2004
Druh Článek ve sborníku
Konference Computational linguistics and Intelligent Text Processing
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Informatika
Klíčová slova machine learning; text categorization; text filtration; text similarity
Popis Článek popisuje problémy s klasifikací a filtrací podobných relevantních a nerelevantních reálných textových dokumentů z jedné velmi specifické domény, získané z internetových zdrojů. Kromě podobnosti jsou dokumenty často nevyváženy -- nedostatek nerelevantních dokumentů pro trénování. Je navržena definice podobnosti. Klasifikace byla testována pomocí šesti algoritmů z hlediska podobnosti textů. Nejlepší výsledky poskytly neuronové sítě založené na backpropagation a support vector machines s radiálními bázovými funkcemi.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.