Кореляційний аналіз.
Корелятор – мовний вираз деякого відношення. Слова будь-якої мови можна розподілити на два типи: 1) слова, що позначають певні смислові відношення між об’єктами та 2) слова, що позначають самі ці об’єкти. Слова першого типу називають єкспліцитними кореляторами, а слова другого типу – простими словами або кореляндами. Коли відношення не має для свого виразу спеціального слова, говорять про імпліцитні корелятори. Кореляція з імпліцитним корелятором складається з двох слів. Наприклад, “дівчинка співає” – тут смислові відношення виражені за допомогою морфологічних характеристик , а саме, особова форма дієслова показує, що дія, позначена дієсловом, виконується в даному випадку дівчінкою. Кореляція з експліцитним корелятором повинна містити щонайменше три слова. Наприклад, в словосполученні “червоний та чорний” експліцитним корелятором виступає сполучник та. Перше та третє слово називаються корелятами.
1 – місце першого корелята, 2 – місце другого корелята, 3 – місце корелятора.
Кореляція “green bottle”.
В кореляціях дуже важливим є порядок слів, тому недостатньо в словарних статтях вказувати лише індекси кореляцій, в яких слово може приймати участь, необхідно вказувати також порядкове місце слова в кореляції. Так, словарні статті слів bottle та green повинні містити таку інформацію:
Корелят | Ic – індекс кореляції | CF – значення кореляційної функції |
Bottle |
Ic 521 |
CF2 |
Green |
Ic 521 |
CF1 |
Фрагмент словника для цих двох словосполучень буде мати вигляд:
Корелят | Ic – індекс кореляції | CF – значення кореляційної функції |
Bottle |
Ic 521 |
CF2 |
Green |
Ic 521 Ic 014 Ic 014 |
CF1 CF1 CF2 |
And |
Ic 014 |
CF3 |
Blue |
Ic 521 Ic 014 Ic 014 |
CF1 CF1 CF2 |
Для корелювання більш складних структур будь-яка вже існуюча кореляція в свою чергу розглядається як можливий корелят в кореляції вищого рангу. Так словосполучення green and blue bottles представляється:
Словарні статті будуть містити ще й:
green and blue |
Ic 521 |
CF1 |
Bottle |
Ic 521 |
CF2 |
Додаток до словників:
green and blue bottles |
Ic 401 |
CF2 |
like |
Ic 401 |
CF1 |
like green and blue bottles |
Ic 222 |
CF2 |
I |
Ic 222 |
CF1 |
Кореляція 401 – “дієслово-доповнення”; кореляція 222 – “підмет-присудок”.
Задачею цієї системи є послідовна обробка тексту для встановлення кореляційної структури словосполучень та фраз природньої мови. Результат аналізу – кореляційна сітка.
До слів аналізуємої фрази підбираються словарні карти і вводяться в машину. У випадках синтаксично неоднозначних речень система видає декілька варіантів аналізу. Отримані з однієї вхідної фрази різні кореляційні сітки будуть ще раз досліджуватися з метою виявлення семантичних ознак, які потім будуть використовуватися в системі для видалення зайвих елементів.
Власне, “Мультістор” – це ділянка пам’яті машини, відведена для утворення кореляцій за кореляційними індексами слів, яку зручно представляти у вигляді таблиці, що складається з таких стовпчиків:
Ic | ||
CF |
1 |
2 |
… |
… |
Зчитуючи індекс кореляції першого слова фрази, машина фіксує цей індекс у відповідній секції CF у вигляді маркеру, що являє таким чином певну кореляційну здатність першого слова. Якщо тепер в другій секції тієй ж колонки Ic з’явиться маркер від другого слова, то це буде означати, що між першим та та другим словами можлива кореляція.