Українські реферати, курсові, дипломні роботи
UkraineReferat.org
українські реферати
курсові і дипломні роботи

Синтаксичний аналіз у системах автоматичного перекладу. Концепції та алгоритми

Реферати / Комп'ютери і технології / Синтаксичний аналіз у системах автоматичного перекладу. Концепції та алгоритми

Алгоритм синтаксичного аналізу мовних текстів

Алгоритм, що буде тут розглядатися, являє собою частину більш складної системи, яка призначена для автоматичного синтаксичного аналізу текста. Під синтаксичним аналізом розуміється визначення смислових зв’язків між об’єктами тексту, тобто між словами в межах простих речень і між простими реченнями в складі складних.

Вся система в цілому складається, окрім алгоритму синтаксичного аналізу і деяких допоміжних алгоритмів (зокрема технічного характеру), з алгоритму морфологічного аналізу. Морфологічним аналізом називається обробка окремих словоформ, в результаті якої кожній словоформі ставиться у відповідність її інформація – характеристика, що відображає ті властивості словоформи, які необхідні для наступного синтаксичного аналізу. До початку синтаксичного аналізу увесь текст представляється у вигляді послідовності інформацій до словоформ, так що алгоритм синтаксичного аналізу має справу не з словоформами, а лише з відповідними інформаціями.

Для представлення результатів синтаксичного аналізу, тобто для відображення зв’язків між словами і між реченнями, використовується 31 відношення безпосередньої домінації (ВБД). Ці відношення бінарні; вони антирефлексивні, антисиметричні і антитранзитивні. Один з членів відношення БД вважається головним (господарем), інший – залежним (слугою). В простому реченні всі слова повинні бути залежними, крім присудка (який розглядається як “вершина” речення); в складному реченні повинні бути залежними всі речення, крім головного. Кожне слово повинно мати лише одного “господаря”, але може мати скільки завгодно “слуг”; кожне речення може мати двух “господарів” (обов’язково різного рівня: одного “господаря” – речення, а іншого “господаря” – слово в цьому реченні), а також скільки завгодно “слуг”. ВБД відображаються нумерованими стрілками, що направлені від “господаря” до “слуги”. Наприклад:

Можна сказати, що синтаксичний аналіз полягає в тому, щоб певним чином розставити в тексті нумеровані стрілки.

Смисл зв’язкам можна дати такий:

1. Предикативне (происходит совмещение, процесс окончен, естественно предположить, требовалось выяснить).

2. 1-е об’єктивне (решать задачу, хранение информации, принадлежащий к множеству, избегает ошибок).

3. 2-е об’єктивне (приписать букве индекс, сведение вычислений к сложениям).

4. 3-е об’єктивне (перевод текста с английского на русский язык, сравнить самолет с ракетой по скорости).

5. Означальне (обычная запись, вычислительный процесс, действовать машинально, чисто автоматически).

6. Вказівне (этот человек, тех решений).

7. Присвійне (орудие вычислителя, их комната).

8. Кванторне (все данные, любая буква, некоторые процессы).

9. Загальнокваліфікаторне (такие таблицы, такой подход).

10. Порядкове (первое слово, шестая строка, ХХ век, 1953 год).

11. Кількісне (пять страниц, трем отделам, из ста восьми шагов, много способов, сколько текстов).

12. Агентивне (решено машиной, исполнение романса певицей, вычисляется алгоритмом, наше отставание, его полет).

13. Субстантивно-атрибутивне (отверствие диаметром 6мм, столб высотой 2 м, такого рода утверждение).

14. Партитивне (блок устройства, елемент множества).

15. Загальногенетивне (лист бумаги, пример алгоритма, понятие алгебры, преимущество метода).

16. Обставинне (находиться позади барьера, квадрат слева, цифра записана на ленте, подается для реализации, однако выяснилось).

17. Суб’єктно-копредикативне (он вернулся усталым, умер стариком).

18. Об’єктно-копредикативне (нашли его усталым).

19. Аппозитивне (угол ABC, часть Г).

20. Порівняльне (сильнее первого мотора, более низкий, чем стержень С2).

21. Елективне (каждый из разрядов, две из колонок, многие из иероглифов).

22. 1-е призв’язочне (будет полным, этот четырехугольник есть квадрат, являющиеся достаточными).

23. 2-е призв’язочне (бывают трех типов, могут быть следующего рода).

24. 1-е допоміжне, або службове (более четкий, самые полные, не получил, видели бы).

25. 2-е допоміжне (сорок три, сремиться к нулю, физика и математика).

26. 3-е допоміжне, або відприйменникове (без двигателя, несмотря на отказ).

27. Обмежувальне (хотя бы один, только числа, лишь законченные работы).

28. Однорідне (операции и константы, целые или не целые числа, нумеруются, но не сдвигаются).

29. Квазіоднорідне (общая функциональная схема, обычного графического изображения).

30. Відсполучникове (как выход, как для решения).

31. Зіставлюване (чем дальше продвигаемся, тем яснее видим).

В процесі аналізу за допомогою певної послідовності операцій текст розбивається на певні частини, які ототожнюються з одиницями аналізу (в даній роботі це синтагми та інши змістовні сполучення); одиниці аналізу зібрані в особливому списку, де до них приписані вказівки, які необхідно виконати, щоб фіксувати (зображати) знайдені зв’язки (в даній роботі це вказівки про постановку нумерованих стрілок).

В тексті, що аналізується, розглядаються три типи відрізків: гіпотетична словоформа (вхідна) – послідовність літер між двума проміжками; знаки пунктуації також вважаються вхідними словоформами; гіпотетичний сегмент – послідовність словоформ між двума знаками пунктуації або сполучниками, перед якими немає коми; гіпотетична фраза – послідовність сегментів між двома крапками або іншими тотожніми знаками. В результаті роботи алгоритму ці гіпотетичні (вхідні) об’єкти перетворюються на кінцеві, або приведені: приведена словоформа, приведений сегмент, приведена фраза. Приведена словоформа – це загальна назва для всіх лексичних одиниць. Приведеними синтагмами називаються вирази з повною або частковою предикативністю, тобто прості речення, дієприслівникові і обособлювані означальні (зокрема прислівникові) звороти. Приведена фраза є аналогом самостійного речення – простого або складного, але не того, що є частиною іншого речення. Приведена фраза – це максимальний відрізок тексту, в межах якого враховуються синтаксичні зв’язки. Приклад:

.(1) Н(2)| .(3)И(4)| .(5)Голубков(6) исследовал(7) еще(8) двадцать(9) шесть(10) видов(11) ||| ,(12) так(13) как(14) его(15) первый(16) ||| и(17) второй(18) опыты(19) дали(20) результаты(21) ||| ,(22) представленные(23) на(24) рис(25)| .(26) 6(27) ||| |.

Тут 27 гіпотетичних словоформ (пронумеровані), 4 гіпотетичних сегмента (відокремлені |||), 4 гіпотетичних фрази (відокремлені |), 17 приведених словоформ (підкреслені), 3 приведених сегмента (1 – до так как, 2 – до представленные, 3 – до кінця), 1 приведена фраза (все речення).

Необхідні відомості про текстові об’єкти представляються у вигляді інформацій. Інформація - послідовність ознак (граф), що приймають певне значення.

Завантажити реферат Завантажити реферат
Перейти на сторінку номер: 1  2  3  4  5  6 

Подібні реферати:


Останні надходження


© 2008-2024 україномовні реферати та навчальні матеріали