Українські реферати, курсові, дипломні роботи
UkraineReferat.org
українські реферати
курсові і дипломні роботи

Синтаксичний аналіз у системах автоматичного перекладу. Концепції та алгоритми

Реферати / Комп'ютери і технології / Синтаксичний аналіз у системах автоматичного перекладу. Концепції та алгоритми

В цьому блоці встановлюються такі функції вузлів: підмет, пряме доповнення, непряме доповнення. Встановлення інших актантів відбувається після порівняння СінП з семантичним словником, тому четверта позиція в цьому блоці, як правило, не заповнюється.

Четвертий блок СінАн

Цей блок складається з двох частин. В першій частині оброблюються придієслівні займенникові клітики. Ця частина являє собою алгоритм, що використовує правила аналізу, складені на основі способу опису використання цього типу одиниць у французькій мові, запропонованого Л.Н.Іорданською в доповіді на семінарі в ІНФОРМЕЛЕКТРО в 1978р. Новим в цьому способі опису є поняття синтаксично опорного слова. В системі ФРАП був використаний фактичний матеріал. Різниця полягає лише в тому, що в оригіналі правила були сформульовані для аналізу фільтрового типу, а в системі ФРАП вони використовуються по-іншому: елементом синтаксичної структури вважається зв’язок займенника з своїм опорним словом, а всі можливі семантичні господарі вираховуються за синтаксичними зв’язками у відповідності з правилами. Інформація про семантичних господарів використовується в СемАн при заповненні їх валентностей.

Друга частина четвертого блоку призначена для вирахування керуючих для тих вузлів, які є або можуть бути сирконстантами у відповідності з інформацією з позиційної таблиці. В якості керуючих для таких вузлів перераховуються всі можливі кандидати, що допущені синтаксичною структурою вже побудованою частиною СінП і властивостями самої сирконстанти. Друга частина четвертого блоку використовується також для уточнення СінП у відповідності з результатами СемАн.

Синтаксис і семантика в системі англо-російського перекладу

Лінгвістичною базою системи АРАП служить модель природньої мови “СмислóТекст”, в рамках якої запропонований ряд теоретичних принципів та формальних інструментів, які так чи інакше використовуються в системі. В основу системи покладена формальна модель перекладацького процесу, яку схематично можна зобразити так:

Тут Т1 – текст першою мовою (вхідною), Т2 – текст другою мовою (вихідною), П1 та П2 – проміжне формальне представлення одного та іншого тексту, С1 та С2 – семантичний запис текстів.

Відповідно до цієї схеми процес перекладу складається з таких етапів: 1) аналіз вхідного тексту з наступною його заміною через проміжні представлення в семантичний запис (Т1=>C1), 2) власне переклад, що відбувається на рівні одного з формальних представлень тексту, що отримані при аналізі, і зводиться до вибору перекладних еквівалентів для одиниць, які утворюють дане представлення вхідного тексту; в результаті будується проміжне представлення для текста перекладу (П1=>П2), 3) синтез тексту перекладу: перехід від проміжного представлення до послідовності реальних словоформ та знаків пунктуації (П2=>Т2), 4) перевірка синтезованого тексту на наявність в ньому небажаної омонімії, яка могла виникнути в процесі синтезу (Т2=>П2), 5) оцінка адекватності перекладу шляхом аналізу проміжного тексту представлення (Т2=>С2) і порівняння отриманого при цьому семантичного запису С2 з семантичним записом С1 вхідного тексту (С1?C2)? 6) у випадку необхідності – редагування тексту перекладу за результатами проведених перевірок і порівнянь: при омонімічності тексту - пошук неомонімічного варіанту шляхом включення системи синонімічного перефразування (П2=>П2); при неадекватності перекладу – повернення до етапу вибору перекладних еквівалентів (пунктирна лінія) і перегляд або окремих компонентів, або всього етапу в цілому.

Для системи АРАП прийнятий порядок роботи, коли спочатку розробляється верхня частина схеми (лінія Т1=>П1=>П2=>Т2).

При цьому підході особливо важливе значення має вдалий вибір рівня П, до якого пред’являються дві протилежні вимоги. З одного боку він повинен бути достатньо “семантичний” (близький до СЗ), щоб в представленні тексту на цьому рівні експліцитно вказувалися або легко з нього виводилися відомості про те, від яких його елементів і яким чином залежить смисл даного тексту, а тим самим і вибір перекладацьких еквівалентів. З іншого боку рівень П повинен бути і достатньо поверховим (близьким до природнього представлення тексту), щоб не виникала потреба здійснювати при аналізі дуже багато надлишкових перетворень, які не впливають на кінцевий результат перекладу.

В системі АРАП в якості проміжного представлення тексту вибрана комбінована синтаксична структура (КСС).

Одиницею тексту, для якої в системі АРАП будується КСС і в межах якої здійснюється переклад, виступає речення. КСС речення представляє собою граф залежностей особливого роду, який поєднує в собі властивості поверхнево-синтаксичної і глибинно-синтаксичної структур моделі “СмислóТекст”. В вершинах цього графу стоять повні глибинно-морфологічні предствалення (ГМП) словоформ та знаків пунктуації даного речення з інформацією про їх лінійне розташування в тексті відносно один одного у вигляді порядкових позначень. Ребрами графу є стрілки, що символізують синтаксичні та анафорічні зв’язки між словоформами (або знаками пунктуації), при чому відносно стрілок першого типу (синтаксичних) КСС речення виступає деревом. Ті одиниці або сполучення одиниць, які семантично не значимі і при перекладі не повинні отримувати самостійних еквівалентів, заключаються в КСС в кутові дужки.

Множина вершин КСС повинна бути ізоморфна множині словоформ та знаків пунктуації, що є в реченні. Винятки допускаються лише в двох випадках: 1) якщо в даному реченні є фразеологічні обороти, кожному з них ставиться у відповідність одна вершина, незалежно від того, скільки словоформ входить до складу даного обороту; співставлений цій вершині порядковий номер являє собою перелік номерів всіх вхідних словоформ; 2) якщо речення містить еліптичні конструкції, що порушують вимоги зв’язності синтаксичного дерева, вони в процесі побудови КСС перетворюються в повні структури, і в КСС можуть з’являтися ГМП деяких додаткових словоформ, що відсутні у вхідному тексті; вершини, що містять такі ГМП, маркуються порядковими номерами особливого виду (“фіктивними”).

Синтаксичні зв’язки, які встановлюються в КСС між ГМП словоформ та знаків пунктуації, являють собою глибинно-синтаксичні відношення. Вони можуть бути трьох основних видів:

- зв’язки сильного керування (актантні);

- зв’язки слабого керування (означальні);

- координативні або сурядні зв’язки.

Зв’язки сильного керування – це зв’язки між предикатами та їх актантами. Вони позначаються стрілками, що йдуть від предиката до актанта і несуть цифрові індекси. Індекс являє собою номер, під яким актантна валентність предикату, що реалізується даним зв’язком, записана в моделі керування, вказаної для цього предикату в словнику або в граматиці.

Зв’язки слабого керування – це зв’язки, означальні в самому широкому смислі. Вони відображаються стрілками з індексом m (modifying), і йдуть від значуваного слова до означення. На відміну від зв’язків сильного керування вони реалізують валентності не керуючого, а керованого слова.

Координативні зв’язки являють собою зв’язки між яким небудь словом та сурядним сполучником або знаком пунктуації, що має смисл сурядного сполучника. Вони реалізують валентність цього сполучника або знака пунктуації і відображаються стрілками з індексом c (co-ordinate), що напрвлений до сурядного сполучника. Зв’язок між цим сполучником та другим членом сурядної групи вважається зв’язком сильного керування, що реалізує другу валентність даного сполучника. Приклад:

Завантажити реферат Завантажити реферат
Перейти на сторінку номер: 1  2  3  4  5  6 

Подібні реферати:


Останні надходження


© 2008-2024 україномовні реферати та навчальні матеріали