Комп’ютерна лінгвістика у Польщі
Завантажити презентаціюПрезентація по слайдам:
Комп’ютерна лінгвістика у Польщі. Огляд ресурсів. Наталя Коциба Інститут Славістики Польської Академії Наук УМІФ НАНУ, Київ, 9 липня 2008 р.
План доповіді Корпуси текстів - одномовні - паралельні - програми Електронні словники - одномовні - двомовні - словомережа Системи машинного перекладу Організація праці (підсумки) Демонстрація вибраних проектів
Одномовні корпуси ФРЕК, факультет прикладної лінгвістики ВУ (60-ті роки 20-го століття) 600 тис. Корпус ПВН (напівкомерційний) 8 млн; 100 млн Корпус Інституту Основ Інформатики ПАН, Варшава, 100 млн “Національний” корпус ПМ (Лодзький ун-т) = “Краківський” корпус (тексти до 17 століття) внутрішні корпуси на потреби окремих проектів
Корпус ІПІ ПАН http://korpus.pl Adam Przepiórkowski 100 млн слововживань 15 млн “врівноваженої” вибірки XML, XCES Морфосинтактична анотація Граматична дезамбігуація “нариси” банку дерев (Спейд - SPEJD) Полікарп – Poliqarp, 2 версії
Паралельні корпуси Польсько-англійський (Лодзький університет) – едукаційний характер твори студентів-білінгвів, на потреби підручників з англійської мови для поляків Польсько-український (Інститут Славістики ПАН) – академічний, експериментальний словник, граматика, автоматичний переклад, розробка лінгвістичних стандартів опису слов*янських мов
Словники Портал PWN (Państwowe Wydawnictwo Naukowe) словникові проекти PWN - шкільний словник - тлумачний - “інший” словник (Inny Słownik Języka Polskiego) Портал ONET Паперові словники з дисками-додатками (польсько-англійський, польсько-німецький)
Польський ворднет – Słowosieć Вроцлавська Політехніка, Maciej Piasecki Метод латентного семантичного аналізу (LSA, Latent Semantic Analysis) Корпус ІПІ ПАН, польська вікіпедія, цифрова бібліотека, газета Річпосполита (Rzeczpospolita) нові семантичні відношення (специфіка слов’янських сов): демінутиви, словотвір
Системи автоматичного перекладу Кшиштоф Яссем (Krzysztof Jassem), Познанський університет статистичні методи, великі корпуси-словники з “заготовками”-словосполученнями, слабкий синтаксис Польсько-англійський перекладач Польсько-німецький Польсько-російський
Додаткові спеціалізовані мовні та програмні ресурси Граматичний словник Świgra (Marek Świdziński; Marcin Woliński) TaKIPI (Maciej Piasecki) Полікарп (Poliqarp – Daniel Janus, Aleksander Buczyński) Стохастичний тагер Давіда Вайса
Організація праці ініціатива окремих “просунутих” університетів і інститутів (найбільш якісна), приватна, комерційна окремо мовознавці, окремо інформатики доступність програм і часто їх джерел (промується Євросоюзом, interoperability) схема BLARK (Basic Language Resources Kit) держава ледь починає включатися, Євросоюз наразі відіграє більшу роль
Схожі презентації
Категорії