Scaling to Billion-plus Word Corpora

Varování

Publikace nespadá pod Pedagogickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Název česky Miliardové korpusy
Autoři

POMIKÁLEK Jan RYCHLÝ Pavel KILGARRIFF Adam

Rok publikování 2009
Druh Článek v odborném periodiku
Časopis / Zdroj Advances in Computational Linguistics
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Informatika
Klíčová slova word corpora; web as corpus; duplicate detection
Popis Většina jevů v přirozených jazycích je rozložena v souladu se Zipfovým zákonem, takže mnoho slov a frází se vyskytuje řídce. Abychom tato slova a fráze mohli studovat, potřebujeme velmi velké textové korpusy. V předchozí práci bylo ukázáno, že je možné vytvořit velmi velké korpusy (v řádu miliard slov) z webu. Takové korpusy však často obsahují duplicitní dokumenty, což snižuje jejich užitnost. Dalším problémem bývá nedostupnost efektivních nástrojů pro dotazování nad tak velkými korpusy. Tento článek popisuje BiWeC, velký webový korpus (Big Web Corpus) anglických textů, plně zpracovaný a v současnosti obsahující 5,5 mld. slov. Cílová velikost korpusu je 20 mld. slov. Představujeme metodu pro detekci blízkých textových dokumentů v textových kolekcích obsahujících několik miliard slov. Dále popisujeme, jak jsme přepracovali korpusový manažer Sketch Engine, abychom umožnili efektivní zpracování miliardových korpusů s použitím běžně dostupného hardwaru.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.