X Код для використання на сайті:
Ширина px

Скопіюйте цей код і вставте його на свій сайт

X Для завантаження презентації, скористайтесь соціальною кнопкою для рекомендації сервісу SvitPPT Завантажити собі цю презентацію

Презентація на тему:
Презентація з польської

Завантажити презентацію

Презентація з польської

Завантажити презентацію

Презентація по слайдам:

Слайд 1

PolUKR Polsko-Ukraiński Korpus Równoległy http://corpus.domeczek.pl 2004 - … Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008

Слайд 2

Czy można mówić o lingwistyce korpusowej? Metodologia, a nie osobna branża lingwistyki Rodzaje korpusów: „surowy/łysy” – adnotowany: morfosyntaktycznie, semantycznie, banki drzew (składnia) jednojęzyczny - dwu-/wielojęzyczne równoległe - porównawcze korpus referencyjny (benchmark korpus): BNC, ?IPI PAN

Слайд 3

Czym jest korpus równoległy? Zbiór par tekstów (eng. bitexts) w dwóch językach Proponowany model wygląda dość przekonująco... Запропонована модель виглядає доволі переконливо...

Слайд 4

Слайд 5

Czemu służy korpus równoległy baza danych odpowiedników słów i wyrażeń oraz ich kontekstów dla tłumaczy baza danych dla konfrontatywnej analizy lingwistycznej punkt wyjścia do konstrukcji wiarygodnych słowników dwujęzycznych

Слайд 6

Statystyki ogółem polskie ukraińskie Teksty 70 35 35 Wyrazy 359 926 179 087 180 120 Znaki 3 863 564 1 449 376 2 407 034 kilobajty 3941 1492 2439

Слайд 7

Слайд 8

Слайд 9

Wyszukiwanie (obecnie) Aktualny sposób wyszukiwania bazuje na wyrażeniach regularnych PERL Poszukiwany ciąg należy ująć w znaki "/". Np.: /zimna wojna/ znajdzie wyłącznie akapity zawierające dokładnie tę frazę. Aby uelastycznić kryteria wyszukiwania, można skorzystać z następujących znaków specjalnych: . odpowiada każdemu znakowi (z wyjątkiem znaku nowej linii) І alternatywa; ) koniec fragmentu ciągu [ i ] początek i koniec oznaczania klasy znaków ? 1 albo 0 wystąpień; * 0 albo więcej wystąpień + 1 albo więcej wystąpień \s dowolny znak spacji, interpunkcji \w dowolna litera, liczba, znak podkreślenia \b koniec wyrazu, \ escape

Слайд 10

Przykłady formuł wyszukiwania /jako/ „jako” /jako\s/ „jako, niejako, dwojako” /\bjako/ „jakość’ /norma\./ „norma” przed kropką

Слайд 11

Слайд 12

Слайд 13

Слайд 14

Слайд 15

Metodologia tworzenia korpusu zbieranie tekstów (Katarzyna Kotyńska, Anna Łazar, Helena Krasowska) jeżeli są w postaci papierowej, to: skanowanie, czyszczenie skanów od obrazków i czarnych pasków, numeracji stron; OCRowanie, redakcja poOCRowa; konwertowanie do tekstowego formatu (FineReader --> Word); wyrównywanie kolumn, wyczyszczenie od znaków podziałów stron, przypisów dolnych, znaków przeniesienia wyrazów; jeszcze raz wyczytywanie błędów (FineReader wyświetla tylko miejsca, które są "podejrzane" dla niego samego); sprawdzenie podziału na akapity (czy w ogóle są, czy nie są podwójne); konwertowanie czcionek do wspólnego formatu (przyjęliśmy Unicode/UTF-8); konwertowanie z MSWord .doc na .txt dodawanie metadanych (tytuł, autor, tłumacz, rok napisania, rok i miejsce wydania oryginału, gatunek literacki, itd. ok. 20 pozycji); konwertowanie z .txt do .xml dodawanie do serwera

Слайд 16

Co się dzieje na serwerze Metadane są wpisywane automatycznie do bazy danych MySQL i potem pobierane z niej przy korzystaniu z korpusu Wyrównywanie tekstów na poziomie akapitów, oznaczonych w tekstach - Dynamicznie, zakładając, że ilość akapitów w tekstach jest jednakowa i każdy akapit w tekście oryginalnym ma odpowiednik w tekście tłumaczonym Oprogramowanie: Magdalena Turska

Слайд 17

W opracowywaniu: a) Dodawanie informacji gramatycznych polski ukraiński sprowadzanie do wspólnego formatu metadanych gramatycznych (tagset) NB: stopnie porównania dla przymiotników i przysłówków ukraińskich b) Wyrównanie na poziomie zdań problem podziału na zdania (skróty) demonstracja programu Text Align 1.1.1.1 Hunalign (wymaga słownika oraz lematyzacji dla w miarę akceptowalnych wyników)

Слайд 18

Źródła informacji morfosyntaktycznej Język polski: tager TаKIPI, IPI PAN + Politechnika Wrocławska, ok. 200 tys. słów (Marcin Woliński, Adam Radziszewski i in.) Lematyzator, morfologiczny analizator, ujednoznaczniacz (dezambiguator) Język ukraiński: słownik gramatyczny ULIF NANU, 250 tys. słów (Igor Szewczenko, Ołeksandr Rabulec) Lematyzator, morfologiczny analizator, brak ujednoznacznienia (dezambiguacji)

Слайд 19

Слайд 20

Ukraiński tekst nietagowany Львів розташований на етнічних українських землях і є одним з головних нервових вузлів ук раїнського народу, найважливішим клапаном його серця, вічним збудником честолюбства, гордості й потягу до волі.

Слайд 21

Ukraiński: tagi wejściowe z lematami Львів розташований на етнічних українських землях і є одним з головних нервових вузлів українського народу, найважливішим клапаном його серця, вічним збудником честолюбства, гордості й потягу до волі.

Слайд 22

Przykłady kodów gramatycznych ULIF (384) Znaczenie gramatyczne Kod (tag) Przykład Czasownik, bezokolicznik, aspekt dokonany, strona czynna VA прочитати Imiesłów przymiotnikowy, rodzaj męski, liczba pojedyncza, mianownik, aspekt dokonany, czas przeszły, czynny BA зрослий Przymiotnik niezmienny AZ ультра Rzeczownik, ogólny, rodzaj żeński, liczba pojedyncza, celownik FC квітці Predykatyw (słowo orzeczeniowe) X0 слід

Слайд 23

Polski tekst nietagowany W dzisiejszym posiedzeniu komisji uczestniczy ekspert komisji pan profesor Jan Gajewski.

Слайд 24

Слайд 25

Слайд 26

Завантажити презентацію

Презентації по предмету Різне