ТК СНТТ |
| Структура | Склад | Адреса | Засади | Правопис | Конференція | Семінар | Термінографія | Вісник | Товариство | Комісія | Оголошення | Хто є хто | Архів |
ЗБІРНИК
наукових праць учасників XI Міжнародної наукової конференції
«Проблеми української термінології СловоСвіт 2010»
1 – 2 жовтня 2010 р.
Кульчицький І. Деякі аспекти адекватності інтелектуальних програм автоматичної перевірки граматики української мови / Ігор Кульчицький, Михайло Плеша // Проблеми української термінології : міжнар. наук. конф., 1−2 жовт. 2010 р. : зб. наук. пр. ‒ Л., 2010. ‒ С. 104–106.
УДК 004.4
Ігор Кульчицький1, Михайло Плеша2
1Національний університет «Львівська політехніка»,
2Львівська комерційна академія
ДЕЯКІ АСПЕКТИ АДЕКВАТНОСТІ ІНТЕЛЕКТУАЛЬНИХ ПРОГРАМ АВТОМАТИЧНОЇ ПЕРЕВІРКИ ГРАМАТИКИ УКРАЇНСЬКОЇ МОВИ
© Кульчицький І., Плеша М., 2010
У статті розглянуто окремі аспекти автоматичного перевіряння використання граматики української мови за допомогою середовища MS Word.
Ключові слова: українська мова, орфографія, грамматика, MS Word.
The article deals with some aspects of Ukrainian grammar check in MS Word environment.
Keywords: Ukrainian language, spelling, grammar, MS Word.
— Ви, мабуть, забули увімкнути перевірку ворда...
Із розмови наукового керівника та аспіранта
Сьогодні в діяльності людей важко визначити галузь, у якій не застосовують комп’ютерні програми. Програми ведення бухгалтерського обліку, пакети для наукових та інженерних розрахунків, обробники графіки та відео, менеджерські системи планування ресурсів та керування взаємодією з клієнтами, засоби ведення документообігу — далеко не повний список таких застосувань. Останнє (документообіг) тією чи іншою мірою стосується всіх користувачів. Мабуть, не буде помилкою стверджувати, що кожному користувачу персонального комп’ютера доводилось створювати документ в електронній формі. Для цього найчастіше використовують офісні пакети, серед яких найпоширенішим на сьогоднішній день є Microsoft Office. Загальні проблеми використання української мови у програмних середовищах розглянуто в [3; 4]. У цій же статті ми розглядаємо вбудовані в Microsoft Office засоби граматичної перевірки української мови щодо відповідності функцій цих засобів правилам українського правопису. Зазначмо, що модуль підтримки української мови на замовлення Microsoft розробила українська компанія ProLing Ltd. Ця ж компанія є також виробником програм «Плай» та «Рута» для перекладу та перевірки орфографії. Тобто вбудовані засоби перевірки української мови в Microsoft Office та всім відома програма «Рута» мають спільну базу, таким чином, проблеми описані в статті — спільні.
Про якість роботи програмного забезпечення зазначмо таке. Те, що комп’ютерні програми містять помилки, знають усі більш-менш досвідчені користувачі. Проявом таких помилок найчастіше є несподівані «зависання» програм (а то і всієї системи), аварійні завершення роботи, конфліктні несумісності між різними програмними продуктами. Створення сучасного програмного забезпечення — складний процес і уникнути таких помилок важко. Розробники програм, які себе поважають, періодично забезпечують свої продукти відповідними виправленнями (які, можливо, містять нові помилки), іноді ці виправлення (чи нові помилки) реалізовано в нових версіях програм. За будь-яких обставин такі помилки проявляються не так часто (часом результатом прояву такої помилки є зовсім інша програма, ніж та, яка викликає підозру). Користувачу залишається обрати, яка версія програми працює в нього найкраще у співвідношенні користь/роздратування. Проте поряд з такими помилками трапляються і, на нашу думку, значно вагоміші та небезпечніші: коли програма без жодних збоїв чи повідомлень про помилку функціює неправильно, тобто дає невірний результат. Як засвідчує досвід, про такі помилки знає значно менше користувачів й у багатьох із них віра в непогрішність комп’ютера вже на рівні підсвідомості. Тому під час дискусій часто доводиться чути фрази на кшталт: «А який пакет математичної обробки ви використовували у своїх викладках?»; «Свої розрахунки я виконав у Maple (математичний пакет)»; «А чому Ви не скористалися пакетом таким-то...?». При цьому автори цих фраз і не підозрюють, що ці ж математичні пакети низку задач розв’язують неправильно! Але якщо жертвами помилок спеціалізо-ваних програм є вузьке коло фахівців, то, як ми вже зазначали, з документами в електронній формі працювати доводиться всім. І більшість користувачів переконана, що граматику комп’ютер перевіряє бездоганно: «а ворд мені це слово виправив», «я перевіряв граматику вордом» і т.п. Хоча граматичні помилки менш драматичні, ніж, скажімо, функційні помилки бухгалтерського програмного забезпечення, уваги вони заслуговують не меншої.
У нашій праці розглянемо лише функційні помилки програм перевірки граматики української мови — з погляду користувача вони більш цікаві, ніж помилки програмних реалізацій (які безумовно також викликають інтерес, але більш вузького кола фахівців-програмістів). Передусім під розгляд потрапляє Microsoft Office Word — остання на час написання статті версія Word — версія у складі Microsoft Office 2010. Виявлені у ній помилки наявні у всіх попередніх версіях Office. Доречною, на нашу думку, статтею, що присвячена цій тематиці є [5]. У цій статті автори продемонстровали кілька цікавих прикладів, коли програма мовного контролю не виправляє явні помилки. Помилки, висвітлені у згаданій статті, мають логічний та змістовний характер і програми мовного контролю їх не фіксують. Від себе додамо, що знання «ефектів», які описані в [5], є вкрай важливим, але вимагати від програм такої інтелектуальності (що дозволяє автоматизовувати змістовний контекст) досі не на часі — не досягнули ще дослідження в галузі штучного інтелекту такого рівня. Із таким же успіхом, можна очікувати від калькулятора, під час розв’язання задачі, правильної відповіді, незважаючи на неправильно внесені для розрахунків дані. Не вміє на сьогоднішній день комп’ютер самостійно розв’язувати задачі. Так, скажімо, програми розпізнавання тексту мають серйозні проблеми з рукописними текстами, тому описані в [5] проблеми не є дивними. Про деякі з курйозів у роботі програми перевірки правопису можна прочитати у [7]. У цій статті ми порушимо питання, наскільки правильним є те, що «…автоматичний режим програми «Рута» гарантує граматичну правильність написання слів» [5]. Як виявляється, є ціла низка слів української мови, які програма перевірки граматики неправильно «перевіряє». Наголосімо, мова йде не про логічні та контекстні помилки, а про граматичні помилки. Ми їх умовно розділимо на дві групи. До першої групи віднесемо ті слова, що наперед написані неправильно, але програма перевірки їх «проґавила». Друга група слів, це ті слова, які наперед написані абсолютно правильно, але програма вважає, що там помилка. Зрозуміло, що до другої групи автоматично належать слова, яких нема в базі даних програмного засобу. Ми такі слова не будемо розглядати, оскільки більшість програм автоматичного контролю граматики дозволяють поповнювати базу. Але, якщо вже слово внесено до бази, воно має бути внесеним правильно. Отже, до другої групи ми відносимо ті слова, які, незважаючи на те, що вони правильно написані, програма позначає як неправильне та ще й пропонує (у тій чи іншій формі, що залежить від режиму використання) свій, «правильний» варіант, тобто в базі це слово є, інакше звідки пропозиція? Наведімо кілька наочних прикладів. Такі слова:
агреман — агремана;
агрофон — агрофона;
варунок — варунка;
набір — набора;
у родовому відмінку однини повинні мати закінчення -у, тобто написані неправильно (див. [1]). Але Word жодним чином не реагує (а отже, у базі це слово є, в іншому випадку це слово було б розпізнано як невідоме) на неправильне написання. Хоча, відсутність реакції на неправильно написане слово може також означати «збій» програми, у наслідок чого програма і «проґавила» помилку. У таких випадках часто можна спостерігати, що в одних версіях (релізах) Office програма помилку знаходить, в інших — ні. Часто ситуація відрізняється на різних комп’ютерах. Наведімо кілька прикладів з іншої групи слів:
абзетцер — абзетцера;
автодин — автодина;
автоспуск — автоспуска;
аквізитор — аквізитора;
аквілон — аквілона;
антисвіт — антисвіта;
баріон — баріона;
бастр — бастра;
файл — файла.
Наведені слова у родовому відмінку однини написані правильно. Наприклад, абзетцер (ланцюговий багатоківшевий екскаватор) — назва машин та їх деталей (див. [6]), закінчення родового відмінку -а, -я. Абсолютно правильно написано й решта слів (див. напр. [1]). Проте Word розпізнає ці слова як помилково написані. Тимчасом як називний відмінок однини цих же слів не викликає жодної реакції, тобто слова є в базі, але їх парадигма у базі визначена неправильно.
Сформулюємо декілька висновків. Програма автоматичної перевірки правопису Microsoft Office неправильно розпізнає цілу низку слів української мови. Цих слів достатньо багато, у статті наведено декілька з них. Це зумовлено декількома факторами: як неправильним внесенням слів у базу для перевірки, так і складністю та неоднозначністю деяких аспектів правопису. Важко вимагати від засобів автоматичної перевірки граматики досконалості в роботі, за умови коли правопис деяких слів відрізняється за різними словниками. Наприклад, серед наведених слів аквілон, бастр, антисвіт та файл написання родового відмінку відрізняється у [1] та [2]. Проблема актуальна для всіх версій Microsoft Office, зокрема й для останньої. У результаті цього склалася достатньо цікава ситуація — незважаючи на використання засобів автоматичної перевірки, користувач вимушений все одно перевіряти граматику самотужки зі словниками та довідниками.
1. «Словники України» on-line [Електронний ресурс]. — Режим доступу: http://lcorp.ulif.org.ua/ dictua/?class=view. 2. Великий тлумачний словник сучасної української мови: з дод. і допов. / Уклад. і голов. ред. В. Т. Бусел. — К.; Ірпінь: ВТФ «Перун», 2005. — 1728 с. 3. Кульчицький І. М., Плеша М. І. Технологічні аспекти вживання української мови в середовищі ОС Windows / І. М. Кульчицький, М. І. Плеша // Вісник Нац. ун-ту «Львівська політехніка». Серія «Проблеми української термінології», 2005. — № 538. — С. 112–115. 4. Кульчицький І., Плеша М. Технологічні аспекти вживання української мови в середовищі ОС Windows II / І. М. Кульчицький, М. І. Плеша // Збірник наукових праць: «Проблеми української термінології». — 2008. — С. 100–101. 5. Тимошик М. Комп’ютер: помічник чи диявол редактора (видавничі проблеми української програми мовного контролю тексту «Рута»)»? / М. Тимошик // Людина. Комп’ютер. Комунікація: Збірник наукових праць / За ред. Ф. С. Бацевича.— Л.: Вид-во Нац. ун-ту «Львівська політехніка», 2010. — С. 99–101. 6. Український правопис / Ін-т мовознавства ім. О. О. Потебні НАН України, Ін-т укр. мови НАН України. — К. : Наук. думка, 2007. — 288 с. 7. Вікіпедія [Електронний ресурс]. — Режим доступу: http://ru.wikipedia.org/wiki/Microsoft_Word