Informace o projektu
Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
(LINDAT-Clarin)
- Kód projektu
- LM2015071
- Období řešení
- 1/2016 - 12/2019
- Investor / Programový rámec / typ projektu
-
Ministerstvo školství, mládeže a tělovýchovy ČR
- Velké infrastruktury pro výzkum, vývoj a inovace
- Fakulta / Pracoviště MU
- Fakulta informatiky
- Spolupracující organizace
-
Akademie věd České republiky
Univerzita Karlova
- Odpovědná osoba prof. RNDr. Jan Hajič, Dr.
Projekt LINDAT-Clarin je koncipován jako český „uzel“ mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure. Centrum LINDAT-Clarin bude tedy v českém jazykovém prostředí zaměřeno na sběr jazykových dat a především jejich anotaci (tj. formální manuální, poloautomatickou a automatickou jazykovou analýzu). Sběr a anotace budou probíhat v takovém rozsahu, kvalitě a technologické přípravě (specifikace, schémata, formáty), která bude přímo využitelná jak v humanitní oblasti (jazykovědný a mezioborový výzkum, kde přirozený jazyk hraje podstatnou roli), tak i pro výzkum a vývoj v oblasti jazykových technologií za použití moderních statistických a hybridních metod.
Náplň práce centra a jeho výsledky se dotýkají řady oborů – v humanitních vědách to jsou jazykověda obecná a pro jazykověda zabývající se konkrétními jazyky, zejména češtinou, dále překladatelství, lexikografie, sociolingvistika, částečně i obory příbuzné (psychologie, sociologie, knihovnictví, neurovědy, cognitive science) s významným přesahem do informatiky (computer science, computational linguistics), matematiky (statistika a pravděpodobnost), a elektrotechniky (zpracování akustického signálu).
Publikace
Počet publikací: 39
2019
-
Word Sense Induction Using Word Sketches
Proceedings of the 7th International Conference on Statistical Language and Speech Processing, rok: 2019
2018
-
An Update of the Manually Annotated Amharic Corpus
Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018, rok: 2018
-
Comments on Czech Morphological Tagset
Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018, rok: 2018
-
csTenTen17, a Recent Czech Web Corpus
Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018, rok: 2018
-
Distributed Corpus Search
6th Workshop on the Challenges in the Management of Large Corpora, rok: 2018
-
Practical Post- Editing Lexicography with Lexonomy and Sketch Engine
Rok: 2018, druh: Další prezentace na konferencích
-
Software Tools for Big Data Resources in Family Names Dictionaries
Names, rok: 2018, ročník: 66, vydání: 4, DOI
-
Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNet
Cognitive Studies | Études cognitives, rok: 2018, ročník: 2018, vydání: 18, DOI
-
Wordnet Consistency Checking via Crowdsourcing
Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts, rok: 2018
2017
-
Accelerating Corpus Search Using Multiple Cores
Proceedings of the Workshop on Challenges in the Management of Large Corpora and Big Data and Natural Language Processing (CMLC-5+BigNLP) 2017 including the papers from the Web-as-Corpus (WAC-XI) guest section, rok: 2017