ТК  СНТТ

 наступний  Технічний комітет стандартизації науково-технічної термінології

| Структура | Склад | Адреса | Засади | Правопис | Конференція | Семінар | Термінографія | Вісник | Товариство | Комісія | Оголошення | Хто є хто | Архів |


ЗБІРНИК

наукових праць учасників XVII Наукової онлайн-конференції СловоСвіт 2022

«Проблеми української термінології»

6–8 жовтня 2022 р.


Дуцяк І. Тезаурус як інструмент уніфікування виознак й алгоритмізування створення їх // Проблеми української термінології : зб. наук. праць XVII Наук. конф. СловоСвіт 2022 (м. Львів, 6–8 жовт. 2022 р.). Львів, 2022. С. 7176.


      

УДК 025.4 + 168.2

 

Ігор Дуцяк

Національний університет «Львівська політехніка»

 

Тезаурус як інструмент уніфікування виознак й алгоритмування створення їх

 

© Дуцяк І. З., 2022

 

Досліджено можливість використання тезауруса для завтоматизованого створення виознак та для уніфікування їх. З’ясовано, види інформації, якими треба доповнити відносини, які звикло вміщують до тезауруса для вможливлювання автоматичної побудови виознак. Запропоновано нового метода класифікування, використовуваного для створення тезауруса.

Ключові слова: українська мова, тезаурус, виознака (дефініція), спосіб класифікування, уніфікування виознак, автоматизування створення виознак.

 

The possibility of using the thesaurus for automatic creation of definitions and their unification has been explored. It was found out the types of information that need to be added to the thesaurus in order to create the possibility of automatic construction of definitions. A new classification method is proposed for the creation of the thesaurus.

Keywords: Ukrainian language, thesaurus, definition, method of classification, unification of definitions, automation of definitions creation.

 

Суть проблеми в загальному вигляді та її зв’язок із важливими науковими чи практичними завданнями. Важливість однакового сприйняття членами людської спільноти змісту понять, позначених словами, що досягають значною мірою за допомогою тлумачних і фахових словників, було усвідомлено давно. Зокрема, Рене Декарт свого часу завважив, що «питання про слова виникають настільки часто, що якби філософи завжди погоджувалися щодо значення слів, їхні суперечки майже закінчилися б» [1, с. 54]. Призначення словників у життєдіяльності спільноти можна інтегрально окреслити як підвищення якости мовлення, завдяки чому зростає ефективність і словесного мислення, і спілкування. Цього підвищення досягають на рівні спільноти створенням оптимальних умов для уніфікування вживаних слів та узгоджуваних із ними понять, а на рівні кожного споживача – доступністю отримання знань про те, що позначають словом, яким є зміст відповідного слову поняття і якими є ознаки позначуваного словом об’єкта. Аби виконувати перераховані функції, бажано, щоб у множині використовуваних тлумачних, фахових і енциклопедичних словників однакові слова поєднувались з однаковими виознаками. Досягання цього ідеалу ускладнюють об’єктивні чинники (зокрема, поглиблення знань про дійсність упродовж розвитку людства призводить до поглиблення змісту виознак; відмінності між виознаками виникають як вислід, окрім іншого, різного стану розвитку лексикографії та логіки). Воднораз, на заваді досягання згаданого ідеалу стоять також суб’єктивні чинники (напр., різний ступінь опанування автором словникової статті знань із лексикографії та логіки, а також знань про виозначуваний об’єкт). Зважаючи на важливість усунення перепон ефективному мовленню, метою дослідження став пошук способів уніфікування виознак.

Аналіз останніх досліджень і публікацій. Тезауруси сучасної форми, публікування яких започаткував у середині ХІХ ст. Пітер Марк Роже, почали активно використовувати в 1970-х роках для автоматизування пошуку інформації. Водночас з’явилося розуміння, що тезаурус є певною мірою оберненим своєю суттю до тлумачного словника – адже ряди підпорядкованих слів (які відображають певним чином зміст поняття) поставлено у відповідність до слова, яким позначають це поняття. Однак виявилося, що в різних тезаурусах до одного й того ж слова автори вибудували різні ряди слів. Із цього факту випливає висновок, що для фіксування семантики слова, зокрема для розв’язання завдання семантичного позначування слів (щоб автоматично знаходити слова з певним набором семантичних параметрів), використання тезаурусів є проблематичним: «Численні ідеографічні словники, створені для різних мов, свідчать, що розробити і теоретично обґрунтувати якусь одну універсальну систематизацію не вдається» [2, с. 94].

До думки про те, що створення універсальних виознак є проблематичним, підштовхують також результати досліджень математичних виознак, використовуваних у підручниках США [3]. Автори відзначають, що різні тлумачення геометричних фігур у підручниках не можна сприймати як щось неправильне, оскільки ці відмінності не впливають на результативність мислення. Зокрема, ідеться про відмінності у виознаках квадрата, трапеції, трикутника. Скажімо рівнобічним трикутником частина авторів називають трикутники, у яких «принаймні» дві сторони мають однаковий лінійний розмір, а інші автори – «тільки» дві сторони мають однаковий розмір. Автори зауважують, що прийняття того, чи того значення терміна (окрім випадків помилкових виознак) не мало б впливати на результативність, правильність розв’язування задач. Подібне можна сказати про відмінність у послідовності основ поділу під час виозначуванння термінів. Скажімо, виознака квадрата як рівнобічного прямокутника є не менш і не більш правильною, як виознака його прямокутним рівнобічником.

У підсумку виникає враження, що дошукуватися загальноприйнятих виознак недоцільно. Крім того, з’являється думка, що навіть, якщо поставити за мету сформулювати загальноприйнятні правила, за якими, різні автори створювали б однакові виознаки, принаймні в тлумачних словниках, то використання тезаурусів не допоможе розв’язати сформульованої проблеми.

Виокремлення нерозв’язаних раніше частин загальної проблеми, яким присвячено статтю. У контексті аналізованої проблематики доцільно врахувати низку міркувань. Перший аргумент стосується того, чи направду всі різноможливі послідовності основ поділу під час класифікування об’єктів систематизовуваної предметної області є однаково ефективними для висліду класифікування. (Класифікування є глибинно пов’язане з виозначуванням – відношення між підпорядкованим і підпорядковувальним поняттями у виознаці тотожні відносинам між вузлами ієрархічної структури класифікації). Супроти довільного вибору форм класифікування в контексті формулювання виознак для тлумачного словника можна, у цьому контексті, навести такі аргументи. Під час діяльности з одними й тими ж предметами в різних галузях знань важливими є різні ознаки цих предметів, а отже актуальними стають різні класифікації одних і тих самих об’єктів. Однак науковці створили ієрархічні класифікації різних природних об’єктів (хемічних елементів, зірок, мінералів, рослин, тварин тощо), які мають загальне світоглядове, орієнтаційне значення для людини. Очевидною є доцільність збігу класифікації природних об’єктів, яку беруть за основу під час виозначання їх у тлумачних словниках із такою ж класифікацією науковців-розробників, які досліджують ці об’єкти. Подібним чином розроблено класифікації багатьох штучних об’єктів, які є загальноприйнятими в усьому світі. Наприклад, товарна номенклатура зовнішньоекономічної діяльности – це тезаурус. Тобто це набір чималої кількости класифікацій, під час побудови системи яких керуються низкою загальноприйнятих правил – класифікації груп товарів розподіляють в одну послідовність за принципами переходження від необроблених, до мало оброблених і далі до більш оброблених; від неживих до живих тощо. Подібним чином створено значну кількість міжнародних, отже загальноприйнятих, класифікаторів для найрізноманітніших галузей діяльности. Отже, практика дає підстави стверджувати, що одні класифікації, є бажаніші, ніж інші.

Ще один аргумент, який дає підстави для сподівання про можливість уніфікування тезаурусів полягає в тому, що можна сформулювати загальні логічні правила, переваг однієї послідовности основ поділу в класифікації (а отже вибору загальнішого поняття у родо‑видовій виознаці), перед іншою послідовністю. Наприклад, цілком раціональним видається правило, згідно з яким у послідовності основ поділу треба переходити від основ, які поділяють предметну область на найбільші групи, до основ поділу, які поділяють її на щораз менші групи об’єктів. Можуть проявитися й інші раціональні підстави для впорядкування основ поділу під час класифікування тих чи тих об’єктів.

Ще один аргумент, на користь пошуку можливостей використання тезаурусів для уніфікування виознак полягає в тому, що можна спробувати побудувати тезаурус за такими принципами (умістити в ньому таку інформацію), яка давала б змогу з ряду впорядкованих у тезаурусі понять автоматично будувати виознаку. У разі однакових засад побудови тезаурусів, повинні бути отримані однакові тезауруси, де генеруватимуть також  однакові виознаки.

На підставі зазначених міркувань виникає думка, що для розв’язання сформульованої проблеми треба спробувати побудувати фрагмент тезауруса таким чином, щоб уведена інформація давала змогу автоматично будувати виознаки, а знання про виявлені внаслідок цих пізнавальних дій складники інформації використати під час створення тезаурусів. Згідно з цим, метою дослідження є пошук складників інформації, яка повинна міститися в тезаурусі, для вможливлення автоматичного творення виознак (неважливо, хто буде це виконуватити – людина чи автомат).

Виклад основного матеріялу. Для побудови фрагмента тезауруса згідно зі сформульованою метою візьмемо царину, меншою чи більшою мірою знану кожній людині – наприклад, меблі. Оскільки наборів меблів, меблевих виробів та їхніх частин є надто велика кількість, обмежимося невеликим фрагментом – із трьох перерахованих видів об’єктів візьмемо для розгляду меблеві вироби. Воднораз це також дуже велика кількість об’єктів, яка містить однофункційні предмети – 1) вироби для розміщення людей і 2) вироби для розміщення речей, – а також багатофункційні предмети. Кожна з названих груп уміщує також дуже багато виробів, скажімо, предмети для розміщення людей доцільно також поділити на однофункційні (для сидіння, для перебування в стані напівлежачи, і для лежання) і багатофункційні, у яких суміщено довільні поєднання названих видів призначення меблевих виробів. Як приклад розглянемо меблеві вироби для сидіння (не претендуючи на повноту охоплення різних видів цих виробів).

Насамперед побудуємо фрагмент тезауруса (рис. 1), де відбито відносини підпорядкованости понять за їхнім обсягом (що відповідає розбиттю множини на підмножини).

 

Меблевий виріб

Меблі для розміщення людей

Меблі для сидіння

Меблевий виріб для розміщення сидячи однієї людини

а) табурет

 

б) стілець

 

в) крісло

 

г) напідиван

 

Меблевий виріб для розміщення сидячи двох людей

в) козетка,

канапа сіамез (канапа тет‑а‑тет)

козетка

канапа сіамез (канапа тет‑а‑тет)

Меблевий виріб для розміщення сидячи кількох людей

а) лавка

 

б) канапе

 

в) диван

 

Меблі для напівлежання

 

 

 

Меблі для лежання

 

 

 

Скомбіновані меблі

 

 

 

Меблі для розміщення речей

 

 

 

 

Рис. 1. Структура відносин між підпорядкованими поняттями в тезаурусі

 

Зображений тезаурус безпосередньо, тобто без додаткових відомостей, нема змоги використати для створення виознак. Отже, його треба доповнити потрібною та достатньою інформацією для завтоматизованого створення виознаки кожного об’єкта на довільному рівні класифікації.

Для розв’язання цієї задачі будемо ґрунтуватися на такому. У змісті деяких понять вміщено інформацію, достатню для розуміння суті співставлюваного з ними предмета, тобто вживання таких слів унепотрібнює виознаку. Якщо маємо ряд ознак фігури «прямокутна» – «рівностороння», то в цих словах зафіксовано і вид ознаки («розмір кута» в першому слові й «відношення між лінійним розміром сторін» у другому слові), і видозміну ознаки («прямий» у першому слові й «однакового розміру» в другому слові). У якому разі, для послідовности подібних назв ознак не треба більше жодної інформації щоб сформулювати виознаку – фігура, яка є прямокутною і рівносторонньою. Якщо ж маємо послідовність «меблевий виріб для розміщення сидячи однієї людини» – «табурет», то в першому терміні зафіксовано ступінь видозміни ознаки, суть якого неважко оприявнити – «для сидіння якої кількости осіб призначено цього вироба», тоді як щодо другого слова нема в явному вигляді відомостей ані про ознаку, яку має об’єкт, ані про конкретний її прояв, тобто видозміну ознаки.

Отже, доповнимо класифікацію відомостей про основи поділу на кожному рівні поділу (тобто про ознаку, яку має кожен член поділу), і про конкретний її прояв у кожного члена поділу, тобто про видозміну ознаки. Доповнивши тезаурус цією інформацією, отримаємо його у вигляді схеми, зображеної на рис. 2.

Запропонований спосіб класифікування дуже близький до фасетного, однак він має дві особливості:

1. Якщо у фасетному способі послідовність розміщення ознак (для кожної з яких встановлено різні можливі прояви, що їх часом називають атрибутами) є довільною, то в запропонованому варіанті, ознаки розміщені в жорстко визначеній послідовності.

2. Якщо у фасетному способі до набору ознак увіходять не тільки суттєві, а й довільні інші ознаки (для кожної з яких також встановлено різні можливі варіанти прояву, тобто видозміни), то в запропонованому способі класифікування до їхнього набору входять тільки ті, які в сукупності є достатні й необхідні для виозначення об’єкта, розміщеного на довільному рівні тезауруса.

Отже, описаний спосіб можна окреслити як упорядковане фасетне класифікування виозначувально суттєвих ознак.

Для створення виознаки треба керуватись таким міркуванням:

Випадок А. Якщо в комірці верхнього рядка вміщено тільки назву ознаки (тобто нема переліку видозміни цієї ознаки), то це або перша комірка, у якій уміщено категорію гнізда понять, або назви ознак містяться безпосередньо в термінах, тобто в комірках таблиці, розміщених під верхнім рядком.

Випадок Б. Якщо в комірці верхнього рядка вміщено не тільки назву ознаки, але й нумерований перелік видозмін ознак, то назву й видозміни ознаки для цього компонента виознаки треба брати з верхнього рядка.

Алгоритм створення виознаки на основі тезауруса для довільного поняття є таким. Виозначучи довільне поняття (і водночас співставлювані з ним термін і позначуваний об’єкт), треба назвати насамперед категорію, а потім послідовно ознаки та їхні видозміни для виозначуваного об’єкта переміщуючись у таблиці зліва направо, тобто рухаючись від першої колонки до тієї колонки, у комірці якої розміщено слово виозначуваного поняття. Наприклад, сформулюємо виознаку слова «крісло» (примітка: нормальний ступінь комфортности – це достатній; підвищений – напівм’які меблі, наприклад оббиті тканиною; високий – м’які меблі й розмір місця сидіти більш ніж достатній; дуже високий – розмір місця для сидіння – надмірно великий):

 

Категорія виозначуваного об’єкта

Загальне призначення

Уточнення

призначення (яким є різновид розміщення)

Кількість людей, на яку функція може поширюватись одночасно

Ступінь комфортности:

а – нормальний;

б – підвищений;

в – високий;

г – дуже високий

Особливості розміщення користувачів на меблях:

Особи сідають:

а) з одного боку;

б) із протилежних боків

1

2

3

4

5

6

Меблевий виріб

(Меблевий виріб) для розміщення людей

(Меблевий виріб для розміщення людей) сидячи

Меблевий виріб для розміщення сидячи однієї людини

а) табурет

 

б) стілець

 

в) крісло

 

г) напівдиван

 

Меблевий виріб для розміщення сидячи двох людей

в) козетка,

канапа сіамез (канапа тет-а-тет)

а) козетка

б) канапа сіамез (канапа тет-а-тет)

Меблевий виріб для розміщення сидячи кількох людей

а) лавка

 

б) канапе

 

в) диван

 

(Меблевий виріб для розміщення людей) напівлежачи

 

 

 

(Меблевий виріб для розміщення людей) лежачи

 

 

 

(Меблевий виріб для розміщення людей) одним або іншим способом

 

 

 

(Меблевий виріб) для розміщення речей

 

 

 

 

Рис. 2. Структура відносин між підпорядкованими поняттями в тезаурусі  уміщенням інформації, достатньої для автоматичного творення виознак

 

Крісло – це меблевий виріб (це відомості з першої колонки) для розміщення людей (це відомості із другої колонки) сидячи (– із третьої колонки), зокрема для розміщення однієї людини (– із четвертої колонки) з високим ступенем комфортности (– із п’ятої колонки).

Побудована модель фрагмента тезауруса спрощено відбиває ту інформацію, яка повинна міститись у виознаці (оскільки це додаткове ускладнення, яке не є принципово важливим для цілей цього дослідження). Спрощення полягає в тому, що кожна виознака тлумачного словника повинна містити принаймні два види інформації: 1) інформація про істотні ознаки (головні; суттєві, тобто такі наявність яких детермінує наявність інших ознак виозначуваного об’єкта); 2) інформація про зовнішні ознаки виозначуваного об’єкта, знання яких дає змогу відрізнити його з-посеред інших об’єктів. Коли йдеться про меблі, то такими зовнішніми ознаками меблевих виробів є їхні конструктивні особливості (з яких елементів складені, у чому проявляється відчуттєво сприймана специфіка конструкції виозначуваного предмета).

Висновки. Унаслідок цього дослідження з’ясовано структуру інформації, яка має бути в тезаурусі для того, щоб її можна було використовувати безпосередньо для формулювання виознак. Запропоновано метод класифікування, подібний до фасетного методу, у якому, на відміну від згаданого методу, кількість ознак їхнього набору обмежена лише тими, які є необхідні й достатні для формулювання виознак, а послідовність їх є не довільна, а зумовлена відповідністю виознаки ієрархіям, що розробили фахівці, які досліджують відповідну предметну ділянку, або іншим критеріям (напр., поділу насамперед на найбільші групи).

 

1. Descartes R. The Philosophical Writings of Descartes. Vol. I. New York: Cambridge University Press, 1985. 418 p. 2. Дарчук Н., Зубань О., Лангенбах М., Ходаківська Я. АГАТ-семантика: семантичне розмічування Корпусу української мови // Українське мовознавство. 2016. Вип. 1. С. 92–102. URL: http://nbuv.gov.ua/UJRN/Um_2016_1_9. 3. Usiskin Z., Griffin J., Witonsky D., Willmore E. The Classification of Quadrilaterals: A Study of Definition. Information Age Pub. 2008. 104 p.

 

 

 

наверх Технічний комітет стандартизації науково-технічної термінології