Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
дипломна оператор1.doc
Скачиваний:
3
Добавлен:
26.08.2019
Размер:
169.47 Кб
Скачать

2.2 Принцип роботи програм-перекладачів

Обчислювальна техніка, як відомо, хороша підмога людині в рутинній роботі. Чи відноситься до таких занять переклад текстів? І так, і ні. З одного боку, праця перекладача багато в чому формальна, а з іншої - переклад не може бути виконаний чисто формально. Є, наприклад, технічний переклад, де важливо знати прийняті за кордоном стандарти позначень тих або інших понять. І є літературний переклад, коли вимагається отримати текст, по художній цінності максимально близький до оригіналу. Чи можливо доручити подібну роботу комп'ютеру?

Говорячи про МП, слід передусім пам'ятати, що комп'ютер — створіння бездушне. Він не розуміє мовних нюансів, натяків в тексті, того, що називається тонкою грою слів. Та і, власне, зрозуміти зміст тексту повною мірою йому не під силу. Мислення як такого при МП не відбувається: пропозиція розчленовується на частини розмови, в нім виділяються стандартні конструкції, слова і словосполучення переводяться по словниках, що знаходяться в пам'яті машини. Потім переведені частини мови збираються за правилами іншої мови.

Але цього, погодитеся, недостатньо для повноцінного перекладу. Залежно від того або іншого стилю і призначення тексту одно і те ж слово нерідко має різні значення. У якійсь мірі ця особливість враховується в системах МП : передбачені змінні словники, іноді для кожного виду тексту передбачений свій словник. Якщо лексики одного машинного словника бракує і застосовуються декілька словників одночасно, можна вказати системі, з якого словника треба брати слово, якщо є декілька варіантів його перекладу. Нарешті, програма сама може пропонувати на вибір користувачеві декілька варіантів перекладу, і він вибирає відповідний варіант, так би мовити, вручну. Можуть виникнути і проблеми з перекладом слів в стійких словосполученнях і фразеологізмах, але це цілком під силу комп'ютеру.

Разом зі встановленими правилами побудови пропозиції в кожній мові існують і свої неписані закони. Наприклад, пропозиція англійською мовою «This is my book» дослівно перекладається «Це є моя книга», і формально це буде правильним, але по-українськи так не говорять. В даному випадку можна сказати, що пропозиція «написана так, ніби його склав іноземець». Звичайно, наведений приклад є простим, і можливість виключення слова «is» дуже просто відбивається в програмі МП. Але переклад, що на практиці вийшов, схожий на текст, написаний іноземцем.

Текст також може містити слова, які треба розуміти в контексті способу життя людей в конкретній країні. Наприклад, під словом «демократ» в США маються на увазі політики, виступаючі за більше втручання держави в економіку, а в Росії ті, хто виступає за велику свободу ринку. Це різні поняття.

Заголовні букви і скорочення таять в собі і інші каверзи. Коли слово розпочинається з великої букви, його переклад розпочинатиметься теж з великої букви. Слово, що цілком складається з таких букв, також буде в перекладі записано заголовними. У англомовній літературі досить часто зустрічаються зовні ефектні абревіатури, які можуть бути прочитані як одно слово. Така абревіатура і буде переведена єдиним словом.

Таким чином, результати МП часто вимагають редагування. Наскільки адекватними можна рахувати результати перекладу на комп'ютері? Це визначається не лише якістю системи МП, але і якістю подальшого редагування. Нерідко систему МП використовує як підмогу фахівець, якому треба швидко перевести, наприклад, технічну документацію. Тоді проблема коректного вживання термінів вирішується сама собою.

Проте МП - це така специфічна сфера застосування комп'ютерів, в проблемах якої майже кожен відчуває себе більш менш фахівцем. Давайте розглянемо, яким чином здійснюється переклад.

По-перше, усім ясно, що чим більше словник, тим краще переклад, означає, перша проблема - проблема створення великих словників для систем.

По-друге, ясно, що система повинна переводити такі пропозиції: «Привіт, як справи»?. Значить, ще одна проблема - навчити систему розпізнавати стійкі обороти.

По-третє, зрозуміло, що пропозиція для перекладу пишеться за певними правилами, за певними правилами переводиться, тобто є ще одна проблема: записати усі ці правила у вигляді програми. Ось, власне, і усе.

Найцікавіше, що ці проблеми дійсно є основними при розробці систем МП, інша справа, що методи їх рішення відомі далеко не усім і зовсім не такі прості, як може здатися.

Для якісного перекладу дуже важливо, щоб практично усі слова початкового тексту легко було знайти і в словнику системи. А ті з них, яких в нім немає, переносяться в текст непереведеними вже на виході з системи, і їх згодом переводять вручну при редагуванні результатів перекладу. Такі слова можуть вплинути на якість перекладу речення. Річ у тому, що для визначення, до якої частини мови відноситься дане слово, система робить аналіз усього речення в цілому. При цьому імітується розумова діяльність людини (таку систему прийнято називати системою з елементами штучного інтелекту). Якщо значення хоч би одного слова в реченні не визначене, то це може спотворити аналіз усього речення, а іноді і результати усього перекладу.

Методи організації великих баз даних вистачає добре розроблені, але для перекладу не менше, а може бути, і більше важливо правильно структурувати інформацію, яка приписується елементу бази, правильно вибрати цей самий елемент. Скільки, наприклад, записів в словнику повинно відповідати звичайному російському слові "программа"? І, взагалі, великий словник - це словник, який містить багато словникових статей, або словник, який дозволяє розпізнати багато слів з тексту?

При найближчому розгляді виявляється, що, наприклад, іменники в російській мові змінюються по відмінках і по числах, тобто для одного іменника може існувати до 12 різних форм, а для дієслів і прикметників, як правило, існує ще більша кількість різних форм (більше тридцяти). Отже, щоб переводити пропозиції, що містять слова "програму", "програмі", "програми" і так далі, добре було б мати спосіб співвідношення словникової статті з автоматичного словника для слова "програма" з відповідною словоформою з тексту. Тому для опису і вхідної, і вихідної мови в системі повинен існувати деякий формальний метод опису морфології, на якому грунтується вибір одиниці словника.

Крім того, використовувана модель морфології дозволила розробити експертну систему для користувача - творця словника. Ця система фактично автоматизує процедуру виділення основи і визначення типу словозміни при введенні нових словникових статей.

Проте розробка опису морфології дозволяє розв'язати тільки проблему того, що є заголовком словникової статті, по якому відбувається ідентифікація одиниці тексту і одиниці словника. Але ж ідентифікація слова з тексту із словниковою статтею відбувається не заради ідентифікації, як це потрібно в електронних словниках, вона потрібна для виконання програмою власне процедур перекладу. Яка ж потрібна інформація в словниковій статті і як мають бути описані правила перекладу для того, щоб програма переводила?

Граматика

З розвитком МП як області прикладної лінгвістики з'явилася безліч лінгвістичних робіт, що пропонували структуру опису властивостей живого слова в словниковій статті машинного словника. При цьому абсолютно окремо з'являлися дослідження, що описують, наприклад, "структуру іменної групи" або "способи вираження прямого доповнення для дієслів говору".

Наприклад, на основі ознаки "приналежність до частини мови" описувалася граматика такого типу :

• іменна група - цей іменник

• іменна група - цей прикметник + іменна група

• дієслівна група - це дієслово + іменна група

• пропозиція - це іменна група + дієслівна група

Зрозуміло, що деяка частина пропозицій природної мови описується такою граматикою, але ця частина дуже незначна, і на її основі не можна правильно аналізувати і перекладати хоч скільки-небудь реальний текст. Та зате можна використовувати ефективні методи побудови перетворювача по заданій граматиці або, у найгіршому разі, написати програму, яка шляхом перебору побудує дерева залежностей для обмеженої безлічі пропозицій.

Стало прийнятим ділити системи перекладу на системи типу TRANSFER і системи типу INTERLINGUA. Цей розподіл заснований на особливостях архітектурних рішень для лінгвістичних алгоритмів.

Алгоритми перекладу для систем типу TRANSFER будуються як композиція трьох процесів : аналіз вхідного речення в термінах структур вхідної мови, перетворення цієї структури в аналогічну структуру вихідної мови (TRANSFER) і потім синтез вихідного речення по отриманій структурі.

Системи типу INTERLINGUA припускають апріорі наявність деякої метамови структур (INTERLINGUA), на якій можна описати усі структури як вхідного, так і вихідного мов в загальному випадку; тому алгоритм перекладу в системі типу INTERLINGUA передбачається як більше за просту : аналіз вхідного речення в термінах метамови і потім синтез з метаструктуры відповідної пропозиції вихідної мови. "Єдина" складність в цьому випадку - розробити саму метамову і описати природну мову у відповідних термінах.

Попри те, що ця класифікація існує, і в середовищі розробників МП вважається хорошим тоном запитати, до якого типу відноситься ваша система, не було розроблено ще не однієї реальної системи, заснованої на принципі INTERLINGUA.

Тому аналіз простих речень як структур, що складаються з синтаксичних одиниць, виконується на основі фреймових предикативних структур, які дозволяють ефективно виконувати перетворення. Дієслово вважається для простих речень головним елементом і його валентності визначають заповнення відповідного фрейма. Для кожного типу фреймів існує деякий закон перетворення у вихідний фрейм і оформлення актантов. Таким чином, здійснюється TRANSFER на рівні пропозицій. Аналіз складних речень потрібно у разі формування узгодження часів і правильного перекладу союзів.

Хотілося б сподіватися, що ці відомості дозволять потенційним користувачам систем перекладу зрозуміти, що створення системи МП - завдання не таке вже просте, і, що називається, наукомістка. А, отже, кількість дійсно придатних до використання систем перекладу, яке може з'являтися в одиницю часу, принципово обмежена.

У будь-якому випадку, стилістичні і граматичні огріхи машинного перекладу компенсуються приголомшливою швидкістю отримання його чорнового варіанту.