ТК  СНТТ

 наступний  Технічний комітет стандартизації науково-технічної термінології

| Структура | Склад | Адреса | Засади | Правопис | Конференція | Семінар | Термінографія | Вісник | Товариство | Комісія | Оголошення | Хто є хто | Архів |


ЗБІРНИК

наукових праць учасників X Міжнародної наукової конференції

«Проблеми  української термінології СловоСвіт 2008»

30 вересня – 1 жовтня 2008 року


Мисак Р. Комп’ютерні словники: класифікація та укладання / Роман Мисак // Проблеми української термінології : міжнар. наук. конф., 30 версн. − 1 жовт. 2008 р. : зб. наук. пр. ‒ Л., 2008. ‒ С. 5255.


        

УДК 800

 

Роман Мисак

Національний університет «Львівська політехніка»

 

Комп’ютерні словники: класифікація та укладання

 

© Мисак Р., 2008

 

Запропоновано класифікацію електронних і комп’ютерних словників залежно від носіїв інформації та основних технічних й експлуатаційних характеристик. Проаналізовано два підходи укладання словників: від паперової версії до електронної та навпаки.

 

The classification of electronuc and computer dictionaries related to information carrier and main technical and operation features is proposed. Two approaches to dictionary design are analysed: from paper version to electronic and vice versa.

 

Компютерна лексикографія займає чільне місце в компютерній лінгвістиці як компютерний лексикографічний інструментарій у мовознавстві. Завдання комп’ютерної лексикографії – розробити комп’ютерні алгоритми, програми, системи та технології для укладання та використання словників. Лексикографічні системи дають змогу формувати словникові статті; зберігати текстову, візуальну та звукову інформацію; здійснювати обробку словникової інформації (аналіз, пошук, фільтрування, відтворення тощо). Використання у словникових статтях аудіо- та відеоінформації вимагає потужного програмного та технічного забезпечення і призводить до ускладнення структури баз даних та інтерфейсу користувача лексикографічних систем. Комп’ютерні лексикографічні системи і програми залежно від мети їх використання можна поділити на дві великі групи: 1) програми підтримки лексикографічних робіт; 2) автоматичні словники різних видів, що містять лексикографічні бази даних [1]. Автоматичні словники розробляють як для інших програм обробки текстової інформації (програм-перекладачів, програм перевірки орфографії та автоматичного виправлення граматичних помилок тощо), так і для кінцевого споживача у вигляді окремого програмного лексикографічного виробу [1; 2].

Комп’ютерним словником у комп’ютерній лексикографії часто називають «словник, процедури укладання якого здійснює комп’ютер» [3]. Однак багато авторів, зокрема [2], розглядаючи традиційні книжкові словники та їх аналоги на електронних носіях, часто одночасно вживають на їх позначення терміни автоматичні словники, електронні словники та комп’ютерні словники. На нашу думку, потрібно виокремити не тільки те, на яких пристроях/носіях та якими засобами укладається словник, але й якими пристроями та засобами й з яких носіїв він відтворюється. З огляду на зазначене, на противагу паперовим версіям словників або книжок (видрукованих на папері) можна поставити електронні словники, записані за допомогою електронних пристроїв на електронних носіях інформації. Серед електронних носіїв інформації та пристроїв необхідно виокремити такі, як персональний/портативний комп’ютер, кишеньковий перекладач/словник, мобільний телефон, компакт-диск. З нашого погляду, терміни автоматичні та електронні словники можна вважати загальнішими та рівнозначними, а термін комп’ютерні словники – як один з їх підвидів. Таким чином, автоматичні або електронні словники, за їх носієм та засобами відтворення, поділяємо на: 1) комп’ютерні (словники, які відтворюються з допомогою персонального або портативного комп’ютера); 2) кишенькові (записані на кишенькових електронних пристроях тощо та відтворюються їх засобами, наприклад кишенькові перекладачі); 3) мобільні (записані в мобільних телефонах та відтворюються на екрані телефону) тощо. Комп’ютерні словники, своєю чергою, можна поділити на такі типи: 1) стаціонарні (встановлють на жорсткому диску комп’ютера); 2) переносні (записують на компакт-дисках і відтворюються на комп’ютері тільки за наявності в дисководі); 3) інтернет-словники (роміщують на комп’ютері-сервері в мережі й доступні з інтернету). Можливі комбінації таких комп’ютерних словників.

Сьогодні ринок програмного забезпечення пропонує велику різноманітність комп’ютерних словників – від мультимедійних енциклопедичних словників до вузькофахових спеціалізованих. Однак ці словники переважно розроблено та видано поза межами України. Серед відомих українських комп’ютерних словників можна назвати: інтегрована лексикографічна система «Словники України», Інститут мовно-інформаційних досліджень НАН України (версія 1.05 – реєстр понад 233 тис. слів, вміщує 6 словників української мови: орфографічний, орфоепічний, словник синонімів, словник антонімів, фразеологічний та словник фразеологізмів); електронний тримовний російсько-українсько-англійський багатотематичний тлумачний словник MultiLock v.3.80 (27 тис. термінів), Галузевий нормативно-термінологічний центр нафтогазового комплексу; компакт-диск зі збіркою українських академічних словників 30-х років у форматі pdf, зокрема «Російсько-український словник» (1924–1933 рр., гол. ред. А. Кримський, С. Єфремов), видавництво «К.І.С.», 2007 р. Технічним комітетом стандартизації науково-технічної термінології Держспоживстандарту та Міністерства освіти і науки України (ТК СНТТ) у 2004 р. започатковано проект видання паперових словників термінографічної серії СловоСвіт одночасно з їхніми комп’ютерними версіями на компакт-дисках [4]. Для укладання електронних версій цих двомовних словників та їх видання розроблено систему PolyDic v. 1.0, із використанням якої видано чотири комп’ютерних диски з електронними версіями двомовних термінологічних словників. На укладання багатомовних мультимедійних словників спрямовано розробку наступної версії системи PolyDic ML 3.0. Система складається із двох модулів та програмних застосунків: основний програмний модуль – редактор для укладання та редагування словника PolyDic ML Editor; модуль для перегляду та роботи зі словником PolyDic ML Viewer, а також програм-застосунків (зокрема PolyDic ML Localizer – надає можливість користувачеві здійснити локалізацію інтерфейсу системи певною мовою чи його редагувати; під час встановлення системи можна вибрати англійську або українську мову інтерфейсу). Система PolyDic ML v. 3.0 перебуває на стадії тестування. Із допомогою цієї системи заплановано укласти п’ятимовний мультимедійний термінологічний словник з архітектури й будівництва.

Вибір того чи іншого програмного виробу залежить від апаратних можливостей комп’ютера та вимог і потреб самого користувача. З огляду на основні технічні та експлуатаційні характеристики на прикладі систем PolyDic v. 1.0 та PolyDic ML v. 3.0 можна здійснити класифікацію комп’ютерних словників ще за такими критеріями [5]:

 

критерій

PolyDic v. 1.0

PolyDic ML v. 3.0

мінімальні апаратні вимоги

16MB RAM, Pentium-133 MHz, CD-ROM, True Color video mode, 40MB вільного дискового простору

512MB, Pentium IV, CD-ROM, ~200MB вільного дискового простору

середовище розроблення

середовище CA Visual Object

середовище програмування SharpDevelop (ліцензія OpenSource), мова C# на платформі Microsoft .NET Framework (ліцензія Microsoft Software Supplemental License)

програмне забезпечення

операційна система Windows 98SE RUS/ME/NT/2000/XP

операційна система Windows XP/VISTA та Internet Explorer 6

використання додаткового програмного забезпечення

не потребує

System.Data.SQLite – ліцензія OpenSource

Microsoft.NET Framework 2.0

WindowsInstaller-KB893803-v2-x86

необхідність інсталяції

необов’язково для модуля PolyDic Viewer

обов’язково

спосіб виконання (із компакт-диску, із жорсткого диску, комбінований)

із компакт-диску, комбінований

із компакт-диску, комбінований

спосіб завантаження

(резидентний/нерезидентний)

нерезидентний

нерезидентний

кількість під’єднуваних словникових баз (словників)

1

1 (у тестовій версії)

обсяг використовуваної оперативної пам’яті

~ 11 960/480 K (PolyDic Editor 1.0 без словникових баз)

~ 36 520/860 K (PolyDic ML Editor 3.0 без словникових баз)

кількість мов словника

1–2 (кількість мов обмежена не тільки можливостями самої системи, але й використовуваним шрифтом PolyDic_SansSerif, який не містить діакритичних знаків)

у системі не обмежена, залежить тільки від можливостей операційної системи

розширення словникової бази

тільки з використанням модуля PolyDic Editor

тільки з використанням модуля PolyDic ML Editor

мультимедійні об’єкти

візуальна і звукова інформація (відеоролики, зображення, фотографії, звукозаписи тощо)

конвертування словникових баз у текстовий формат

тільки з використанням модуля PolyDic Editor у формат rtf

тільки з використанням модуля PolyDic ML Editor у формат rtf або html

мови інтерфейсу

2 мови: українська та англійська

базові мови інтерфейсу – українська та англійська. З допомогою програми PolyDic ML Localizer на їх базі можна здійснити локалізацію будь-якою мовою, що її підтримує операційна система.

 

Система PolyDic v. 1.0 була розроблена для формування комп’ютерних словників, паперові версії яких уже були укладено, а деякі вже видано. Це були комп’ютерні двомовні (російсько-українські) термінологічні словники, їх макро- та мікроструктура повністю відповідала паперовим версіям. Із самого початку систему PolyDic v. 1.0 розробляли в межах уже укладених паперових словників, що зумовило її недостатню гнучкість та певну обмеженість. Серед недоліків системи можна відзначити: обмежена кількість мов перекладних словників (дві); вбудований в систему шрифт не підтримує Unicode і не дає змогу вводити літери з діакритичними знаками; система не підтримує мультимедійні об’єкти. Під час розроблення лексикографічної системи PolyDic ML v. 3.0 підхід був принципово інший: спочатку укладається електронна версія багатомовного термінологічного мультимедійного словника, а потім видається її паперова версія. Структуру словникових баз електронної версії максимально наближено до вимог міжнародного стандарту ISO 12620 «Computer aplications in terminology – Data categories» (рис. 1). Такий підхід дав змогу отримати гнучку систему для укладання комп’ютерних енциклопедичних та лінгвістичних словників різних типів: 1) одно-, дво- та багатомовних (за кількістю мов); 2) фахових, діалектичних, стилістичних, лінгвістичних, авторської лексики (за добором лексики); 3) великих та словників-мінімумів (за обсягом); 4) галузевих, мовних, образних (за функційною спрямованістю); 5) семасіологічних, ономасіологічних, зворотних (за порядком опису лексичного матеріалу) [6]. Нас передусім цікавили термінологічні тлумачно-перекладні алфавітно-гніздові словники. За структурою такий словник відповідає структурі Державного стандарту України на терміни та визначення, засади і правила розробляння якого подано у ДСТУ 3966-2000 [7]. Зокрема, там вказано на можливість синонімії в термінологічних стандартах лише в певних виняткових випадках: «За наявності термінів-синонімів, як правило, стандартизують один із них. В окремих випадках стандартизують два або кілька термінів-синонімів. Підставою для цього є їхня поширеність та відповідність вимогам до термінів». Основними вимогами до терміна є: однозначна відповідність терміна поняттю; відповідність лексичного значення терміна позначеному ним поняттю; системність; раціональна стислість; словотворча здатність; мовна правильність [7]. Виходячи з положень ДСТУ 3966-2000, у системі PolyDic ML v. 3.0 реалізовано можливість зміни користувачем порядку мов в електронній версії словника та вибору першої вхідної мови. Цю процедуру можна коректно виконати тільки для багатомовних термінологічних словників із жорсткими вимогами до синонімії. Таким чином, якщо у відомих комп’ютерних словниках (напр., Lingvo) зміна напрямку перекладу вимагає під’єднання нової словникової бази, то в комп’ютерних словниках, укладених за допомогою системи PolyDic ML v. 3.0, таку можливість уже закладено в самій системі без під’єднання нових словникових баз.

Отже підхід до укладання комп'ютерних словників від дослідження мікроструктури різних типів паперових словників, розроблення структури лексикографічних баз даних та лексикографічної системи, а вже потім укладання електронної версії словника та видання на її основі паперової, є більш гнучким та перспективним, ніж базування на конкретному типі вже виданих паперових версій словників.

 

1. Компьютерная лингвистика // http://www.krugosvet.ru/articles/92/1009220/1009220a1.htm. 2. Чепик Е. Ю. Компьютерная лексикография как одно из направлений современной прикладной лингвистики // http://workinggroup.org.ua/publchepik2.shtml. 3. Карпіловська Є. А. Вступ до прикладної лінгвістики: комп’ютерна лінгвістика. – Донецьк: ТОВ «Юго-Восток, Лтд», 2006. – 188 с. 4. Рицар Б., Мисак Р. Computer Science Terminological Dictionaries SlovoSvit // CSIT’2007 International Conference on Computer Science and Information Technologies: Proceedings of the International Conference (September 27th–29th, L’viv, Ukraine). – Львів: Українські технології. – С. 292–293. 5. Электронные словари // http://www.napcom.ru/slov.htm. 6. Дубічинський ВВ. Українська лексикографія: історія, сучасність та компютерні технології Х.: НТУ «ХПІ», 2004. – 203 с. 7. Термінологія. Засади і правила розробляння стандартів на терміни та визначення понять: ДСТУ 3966-2000. – К.: Держспоживстандарт, 2000. – 32с.

 

 

наверх Технічний комітет стандартизації науково-технічної термінології