Робота з природною мовою
Завантажити презентаціюПрезентація по слайдам:
Основні задачі машинний переклад (ранні підходи; один з відомих прикладів - “The spirit is willing but the flesh is weak” -> rus -> “The vodka is good but the meat is rotten”; нині один з основних підходів: М1 - внутрішнє представлення тексту - М2; діалог людини та програми; інформаційний пошук; спеціальна обробка документів (автоматичне реферування документів; пошук схожих документів і т.п); генерація зв’язних текстів; …
Проблема розуміння Для більшості перелічених задач в тій чи іншій мірі потрібно розуміння текстів. Як наближення - можна вважати, що система розуміє текст, якщо вона може відповідати на запитання, пов’язані з текстом.
Типові стадії аналізу мови синтаксичний аналіз - перевіряється правильність побудови речення та з’ясовується його структура; найбільш досліджена і найменш проблемна стадія; семантичний аналіз - формується подання змісту; співставлення з базою знань; поповнення інформації на основі наявних знань.
Формальні граматики Визначення. Формальною граматикою називається четвірка G = , де: T - основний алфавіт (множина термінальних символів); N - допоміжний алфавіт (множина нетермінальних символів); при цьому T N= ; P - множина правил підстановки типу -> ; тут і - ланцюжки символів, причому містить хоча б один нетермінальний символ; це правило означає, що з існуючого ланцюжка символів можна утворити новий шляхом заміни на ; S - початковий символ; S N.
Важливі позначення ε - пустий ланцюжок; V=T N; V * - множина всіх ланцюжків, тобто послідовностей символів з алфавіту V; V + - множина всіх непустих ланцюжків.
Формальні мови Формальною мовою L(G), породженою формальною граматикою G, називається множина ланцюжків, які складаються з основних символів і можуть бути утворені з початкового символу S шляхом скінченного числа застосувань правил підстановки.
Приклад правил простої граматики S -> -> -> -> -> окремі слова … Приклад фрази: Маленька дівчинка нагодувала цуцика.
Класифікація граматик за Хомським типу 0: необмежені; граматики безпосередньо складових (контекстно-залежні); всі правила підстановок мають вигляд 1A 2 -> 1 2 , де A N; 1, 2 , V * ; - непустий ланцюжок; контекстно-вільні (безконтекстні): всі правила підстановок мають вигляд A -> , де A N; V + ; типовий метод аналізу - побудова дерева граматичного розбору; автоматні (регулярні): A->aB або A->a, де A,B N, a T. Типовий метод аналізу - граф переходів скінченного автомату.
Класифікація граматик: продовження Строге включення: A КВ БС 0. Відповідно - класифікація мов.
Типовий результат синтаксичного розбору – дерево аналізу Речення Група_Підмета Група_Присудка Означення Підмет Присудок Доповнення Маленька дівчинка нагодувала цуцика
Семантичний аналіз – основні підходи Виділення глибинних відмінків; побудова концептуальних графів; різні комбінації цих підходів.
Глибинні відмінки Глибинним відмінком називається роль іменника по відношенню до дієслова. В рамках цієї теорії вважається, що дієслово характеризує те, про що йдеться в реченні: дія, зміна стану і т.п. Одна з перших - система відмінків Філмора. Є ряд інших подібних систем. Після виділення глибинних відмінків система може відповідати на запитання, пов’язані з текстом.
Приклади глибинних відмінків агент - той, хто здійснює дію; об’єкт - те, на що спрямована дія; інструмент - засіб здійснення дії; …
Глибинні відмінки: типова схема аналізу виділення основного дієслова; з’ясування глибинних відмінків, тобто ролей іменників. По суті - заповнення деякої фреймоподібної структури.
Відмінкові рамки Важливе значення має відмінкова рамка, яка пов’язана з кожним дієсловом та зберігається разом з ним у словнику. Відмінкова рамка задає, які відмінки можуть узгоджуватися з даним дієсловом, і якими можуть бути категорії відповідних іменників. Аналіз відмінкових рамок допомагає і при аналізі, і при встановленні невідповідностей.
Аналіз речень: продовження Недостатність простих типів граматик: узгодженість словоформ, змістовні обмеження і т.п. Більш розвинені граматики. Ключова ідея: проста основа+деякі розширені можливості.
Мережі переходів Важлива концепція - аналіз речень на основі мереж переходів, у вигляді яких описується граматика. Аналіз речення можна уявити собі як послідовність переходів від одного стану до іншого; перехід здійснюється при отриманні кожного слова. Простий приклад аналізу на основі мережі переходів. Для аналізу речень природною мовою, які фактично описуються контекстно-залежними граматиками, добре зарекомендували себе розширені мережі переходів (ATN, augmented transition networks).
Розширені мережі переходів В основі зберігають просту структуру правил контекстно-вільної граматики, але доповнюють цю структуру аналізом контексту та перевірками, пов’язаними з контекстом. З дугами мережі пов’язуються процедури, які виконуються при проході цих дуг. Ці процедури, зокрема, можуть запам’ятовувати словоформи, заповнювати значення глибинних відмінків, виконувати дії, характерні для семантичного аналізу, і т.п. Крім того, можуть здійснюватися контекстно-залежні перевірки того, чи може бути здійснений перехід за поточних умов.
Стохастичний підхід Альтернативний підхід – розгляд тексту як деякого випадкового процесу. Вводиться деякий розподіл імовірностей появи тих чи інших слів, частин мови і т.п. (цей розподіл можна отримати на основі аналізу деякої навчальної вибірки). Далі на основі цього розподілу можна визначати імовірності того, що наступне слово відноситься до певної частини мови і т.п. Згадаємо про спам-фільтри.
Схожі презентації
Категорії