РОЗПОДІЛЕНЕ КОМП’ЮТЕРНЕ ДОКУМЕНТУВАННЯ ГОЛОСОВИХ МОВНИХ ФОНОГРАМ
Завантажити презентаціюПрезентація по слайдам:
РОЗПОДІЛЕНЕ КОМП’ЮТЕРНЕ ДОКУМЕНТУВАННЯ ГОЛОСОВИХ МОВНИХ ФОНОГРАМ Ю.Г. Кривонос, Ю.В. Крак, О.В. Бармак, О.С. Загваздін
Аналіз предметної області Можливі сфери застосування включають: стенографування засідань представницьких органів, органів виконавчої влади, судів, інших засідань Користувачі системи мають обмежені навички користування комп’ютером і вимагають простого інтерфейсу Експлуатація системи має бути простою і не вимагати адміністрування
Аналіз існуючих рішень і систем Система “Нестор” Центра Речевых Технологий, Москва Комплекс оперативного стенографування «SRS Report 2000», команія SRS, Москва Проект системи стенографування засідань університету Berkeley, США Система стенографувань засідань ILS, Німеччина
Недоліки існуючих систем Висувають високі вимоги до апаратного забезпечення Вимагають комплексного впровадження і адміністрування Є складними в освоєнні і застосуванні для кінцевого користувача
Постановка задачі Отримання звукового та відео сигналу для широко вживаних типів форматів (wav, mp3, wma, avi, mpeg тощо) Розбиття сигналу на рівноцінні сегменти з автоматичною фільтрацією від сторонніх шумів Створення багатористувацької системи, яка б не вимагала адімінстрування Створення простого і інтуїтивно зрозумілого інтерфейсу користувача Автоматичне розподілення сегментів між користувачами
Запропонована система Може працювати як в однокористувацькому, так і в багатокористувацькому режимах Не вимагає сервеного апартного забезпечення, працює на звичайних персональних ком’ютерах або ноутбуках (об’єднаних в локальну мережу) Відповідає вимогам щодо простоти інтерфейсу користувача і не вимагає спеціального навчання та впровадження Здатна виконувати якісне розбиття звукових сигналів на рівноцінні сегменти з автоматичною фільтрацією від сторонніх шумів
Ергономіка системи Відповідно до класичного дослідження Джорджа Міллера про короткочасну пам’ять людини (1956), людина здатна концентрувати увагу на 7+/-2 об’єктах Кожен сегмент для стенографування має містити 5-9 слів Кількість елементів керування в інтерфейсі користувача не повинна перевищувати 9
Інтерфейс користувача Всі елемнети керування сконцентровано в одній формі Виділено вісім основних команд для роботи зі звуковими сегментами Для основних команд створено “гарячі клавіші”, щоб користувач під час стеногравування не відривав рук від клавіатури
Алгоритм розбиття на сегменти Пошук пауз: проходження вікном визначеної довжини по всьому сигналу і пошук інтервалів, в яких середньоквадратичне відхилення не перевищує заданої межі. Межі сегментів визначаються по знайденим паузам Довжина сегменту є не меншою від деякої заданой величини
Цифрова обробка сигналу Автоматичне видалення шумів з сигналу шляхом застосування вейвлет-перетворень, підібраних певним чином для підвищення якості сигналу Зміна амплітуди сигналу (тихіше/голосніше) Зміна частоти основного тону сигналу, швидкості відтворення Створення ефекту “об’ємного” звучання
Розподілення сегментів Система без додаткового адміністрування визначає такі ролі користувачів: адміністратор, оператор-стенографіст, коректор з наступною функціональністю: При поступанні сигналу на серверну частину системи, він розбивається на сегменти, які надходять операторам Адміністратор групи стенографістів може контролювати завантаженість операторів і слідкувати за процесом стенографування Після завершення стенографування стоврюється загальний текстовий файл, який надсилається для перевірки коректору
Результати експерименту (однокористувацький режим) Для створення стенограми засідання тривалістю 2 години при використанні системи одному непідготовленому користувачу потрібно близько 6 годин, проти 12-18 годин при використанні стандартних засобів. Користувач починає впевнено користуватися системою вже після перших 15-30 хвилин роботи
Результати експерименту (багатокористувацький режим) Для створення стенограми засідання тривалістю 2 години група з 5 оперторів-стенографістів витрачає близько 40 хвилин Загальний файл стенограми створюється автоматично під час стенографовання З урахуванням редагування процес займає близько однієї години
Подальші дослідження Вдосконалення алогритмів розбиття на сегменти і розподілення їх між користувачами Створення алгоритмів автоматичного розпізнавання мовних сигналів Підтримка словників типових фраз для прискорення вводу
Схожі презентації
Категорії