Slovenské vzory dělení: čas pro změnu?

Varování

Publikace nespadá pod Pedagogickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Autoři

SOJKA Petr

Rok publikování 2004
Druh Článek v odborném periodiku
Časopis / Zdroj Zpravodaj CSTUG
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www
Doi http://dx.doi.org/10.5300/2004-3-4/183
Obor Využití počítačů, robotika a její aplikace
Klíčová slova hyphenation; hyphenation patterns; patgen; syllabification; Unicode; TeX; syllabic hyphenation; Czech; Slovak
Popis Dělení slov neboli algoritmická segmentace velké množiny řetězců nějakého jazyka je problém častější než by se na první pohled zdálo. Pro volně šiřitelné slovenské dělení slov zatím existuje pouze řešení vycházející z~definice slabiky ve slovenštině, bez rozsáhlého pokrytí výjimek. Z~více než miliónu shromážděných a rozdělených slov se podařilo vygenerovat programem PatGen nové volně šiřitelné vzory, které se s~nepravidelnostmi jazyka vyrovnávají lépe než dosud dostupné řešení. Výsledek je použitelný nejen v~distribucích TeXu, ale i v~dalších systémech jako například OpenOffice.org. Použité a diskutované techniky bootstrappingu, stratifikace a generování vzorů jsou použitelné při řešení širokého spektra dalších segmentačních aplikací.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.