Practical Web Crawling for Text Corpora

Suchomel,  Vít; Pomikálek,  Jan

Practical Web Crawling for Text Corpora

Varování

Publikace nespadá pod Pedagogickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Praktické automatické stahování z webu pro textové korpusy
Autoři	SUCHOMEL Vít POMIKÁLEK Jan
Rok publikování	2011
Druh	Článek ve sborníku
Konference	Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
www	https://nlp.fi.muni.cz/raslan/2011/paper09.pdf
Obor	Informatika
Klíčová slova	crawler; web crawling; corpus; web corpus; text corpus
Popis	SpiderLing -- automatický stahovač dokumentů z internetu pro lingvistiku -- je nový software pro tvorbu textových korpusů z webu, který uvádíme v tomto článku. Mnoho dokumentů na webu obsahuje pouze materiál, který není vhodný pro textové korpusy, jako seznamy seznamy odkazů, seznamy produktů a dalších druhy textů neskládající se z celých vět. Ve skutečnosti tyto stránky představují drtivou většinu webu. Nepřizpůsobeným stahováním jsme zpravidla získali velké množství dat, která byla odfiltrována při následném zpracování. To činí proces získávání webových textů neefektivním. Cílem naší práce je zaměřit se na stahování částí internetu bohatých na text a maximalizovat počet slov ve výsledném souboru na stažený megabyte. Prezentujeme předběžné výsledky dosažené při vytváření textových webových korpusů v češtině a tádžické perštině.
Související projekty:	Centrum komputační lingvistiky Pattern Recognition-based Statistically Enhanced MT Temporální aspekty znalostí a informací