ТК СНТТ: Збірник 2020 / Зубченко В.

Київський національний університет імені Тараса Шевченка

Стандартування термінології математичної статистики, машинного навчання та науки про дані

У статті зналізовано тренди розвитку керованих даними алгоритмів ухвалювання рішень, обговорено проблеми будування та устандартовувавання термінології математичної статистики, машинного навчання та науки про дані.

Ключові слова: українська мова, термінологія, стандартування, наука про дані, машинне навчання, математична статистика.

The trends of data-driven decision making algorithms are analyzed, problems of construction and standardization of terminology in mathematical statistics, machine learning and data science are discussed.

Keywords: Ukrainian language, terminology, standardization, data science, machine learning, mathematical statistics.

Сучасний світ демонструє нові критерії успішности й вимоги до реалізування цілей. Надшвидка динаміка змін, глобалізованість світу, доступність величезної кількости інформаційних ресурсів, нові можливості щодо безперешкодних комунікацій, якісні трансформації в безлічі галузей економіки, цифровізація суспільства, активне намагання запровадити в багатьох галузях здобутки штучного інтелекту й машинного навчання – лише частина трендів, що будуть визначальними для кожного.

Значний вплив зазначені тенденції мають на кожному з етапів професійного становлення – під час навчання, стажування, отримання досвіду роботи, започаткування власної справи. Потреба запам’ятовувати великі обсяги інформації планомірно поступається вмінню швидко орієнтуватись у потоках даних, отримувати доступ до потрібних інформаційних ресурсів, обирати й перевіряти доступні дані, виконувати їхнє первинне опрацювання, поєднувати дані декількох джерел, провадити синтез, формувати та перевіряти гіпотези за допомогою статистичних методів, здійснювати комплексне аналізування досліджуваних процесів. Отримавши певний набір фактичних знань, ми отримуємо конкуренту перевагу на доволі нетривалий проміжок часу, адже технології стрімко йдуть уперед, створюючи потребу продовжити навчання та безперервно фахово зростати.

Важливим критерієм успішности для багатьох галузей професійної діяльности стає поєднання знань і навичок. Окрім власне високого рівня компетентности в безпосередній професійній царині визначальними є вміння будувати дієві процеси взаємодії з колегами, формувати проєктні команди, зорганізовувати ефективну комунікацію, використовувати техніки таймменеджменту, обирати найдієвіші методи досягання поставлених цілей, інвестувати в розвиток учасників команди, покращувати свої фахові й лідерські якості. Водночас, швидкість зміни технологій спонукає до потреби регулярного моніторингу технологічних можливостей і вміння обрати серед них найефективнішу для реалізації поставлених задач.

Класична система догірного кар’єрного розвитку випускника університету стала одним із можливих варіантів професійного становлення. Альтернативою багаторічного розвитку в межах однієї компанії або галузі стало намагання молодих і амбітних студентів отримати досвід роботи в декількох компаніях, які часто можуть належать до різних галузей. Зміна напряму діяльности що кілька років дозволяє за певний час отримати досвід в IT, маркетингу, бізнес-аналітиці, продажах, data science… Тим самим сформувавши унікальний набір фахових знань і навичок, із можливістю їхнього подальшого поєднання для створення принципово нових моделей та підходів. Успіх – у синтезі досвіду роботи в декількох предметних ділянках, здатности динамічно адаптуватись у різних колективах, ефективно взаємодіяти із колегами з абсолютно різними професійними вміннями, стилем мислення, набором особистісних компетенцій, прагненням створювати нове, утілювати, тестувати, випробовувати, помилятись, покращувати, адаптувати, досліджувати, аналізувати, інтегрувати.

Традиційні підходи до організування робочого процесу все активніше поступаються впровадженню до різноманітних ділянок економіки базових аспектів інноваційного підприємництва, які містять, зокрема: пошук інноваційної бізнес-ідеї, визначення місії, візії та цінності стартапу, пошук і створення команди, методологію дизайну мислення, методи дослідження ринку, побудову бізнес-моделей, методи побудови т. зв. «керованих» даними компаній, аналізування конкурентного середовища, способи підготовки ефективної pitch-презентації, основні концепції побудови бренду, основи маркетингу й методи збільшення продажів.

Більшість подібних підходів ґрунтовано на активному використанні різноманітних методів аналізування даних. Побудова ефективної стратегії потребує вирізнення чинників, які мають найбільший вплив на відповідні аспекти проєкту. Аналіз при цьому цілком може бути багатофакторним, із безліччю факторів, частину з яких можна вказати явно й одразу, інші ж можуть бути неявними або ж прихованими. Перетворити цілковиту невизначеність у певну структурованість може допомогти статистичне аналізування, багате на різноманітні математичні методи аналізування даних. Більшість із них базовано на аналізі попередніх, т. зв. «історичних», даних, які містять різноманітні показники діяльности проєкту – кількість клієнтів, дані про транзакції, найменування, кількість та вартість придбаних товарів, шлях користувача по інтернетсайту, історія активности в соціяльних мережах.

Величезний обсяг накопичених даних, або ж т. зв. big data, відкриває як значні перспективи щодо можливого прогнозування майбутнього, так і значну складність вирізняти з такого масиву даних цінну інформацію. Традиційні методи теорії ймовірностей та математичної статистики все частіше починають доповнювати або ж замінювати сучасними методами машинного навчання, бізнес-аналітики, data science. Вони інтегрують методи математичного опрацьовування та аналізування значного обсягу даних, методи інтелектуального аналізування, складники штучного інтелекту, найсучасніші програмні інструменти, хмарні технології, використання data-центрів для ефективного зберігання та опрацьовування інформації.

Відмінність методів data-science від традиційних полягає в тому, що традиційні підходи передбачають написання чіткого алгоритму, який буде відпрацьовувати машина. Однак швидкість сучасного світу приводить до такої ж швидкої зміни чинників, що є в основі того чи того явища. Саме тому машинне навчання бере за основу підхід, коли комп’ютеру передано лише певні початкові алгоритми, далі ж машина продовжує самонавчання, корегує чи змінює підходи під час роботи на основі нових одержаних даних. Безумовною перевагою підходу є його динамічність, гнучкість, перевагово він дозволяє зробити точніші висновки щодо досліджуваного процесу або явища.

Утім доволі часто методи машинного навчання являють собою black box («чорну скриню»), яка дає певний, хай навіть доволі точний, результат, утім набагато слабше за традиційні моделі дозволяє відстежувати причиново-наслідковий зв’язок між ключовими чинниками й результатом відпрацювання математичної моделі. Значна частина підходів науки про дані не є принципово новими – більшість із них були відомі ще минулого сторіччя. Однак, обчислювальні потужності того часу просто не дозволяли ефективно зреалізувати відповідні методи так, щоб отримати результати відпрацювання моделі в розумний час. Сучасні персональні комп’ютери вже придатніші до частини відповідних задач. Водночас більшу частину динамічних задач машинного навчання реалізують із використанням хмарних технологій та хмарних дата-центрів.

Історичні процеси розвитку та становлення незалежної України, періоди високої економічної та соціальної нестабільности, нерозв’язані й досі питання побудови ринкової економіки та демократичного суспільства – усе це призвело до повільнішого розвитку в нашій країні відповідних цифрових технологій. Здебільшого задіюють обчислювальні потужності, програмові засоби та IT-технології чужоземного походження. Значною мірою саме тому абсолютна більшість методичних матеріялів, програмових засобів та супровідної документації щодо методів машинного навчання викладено англійською мовою.

У продовження проведеної співпрацівниками кафедри теорії ймовірностей, статистики та актуарної математики Київського національного університету імені Тараса Шевченка роботи над стандартуванням актуарної та фінансової термінології, утіленої в навчальному посібнику [1] та статтях [2; 3]. Намагання системно використати українськомовну термінологію в контексті методологічних засад роботи над розвитком інноваційних проєктів, статистичних методів науки про дані, алгоритмів машинного навчання втілено в навчальному посібнику, який наразі автор статті готує до друку.

Уживаючи в українськомовному фаховому середовищі дуже багато термінів або продовжують послуговуватись англійською мовою, або ж їх трансформують в українське написання дослівно, цитуючи англійською. Зберігаючи оригінальне звучання, водночас цілком утрачають безліч можливостей послуговуватися загальновживаними українськомовними математичними та статистичними термінами.

Візьмімо, для прикладу, навіть власне назви предметних ділянок, навівши перелік англійськомовних термінів і їхніх можливих українськомовних аналогів:

data science	наука про дані
data scientist	аналітик даних
machine learning	статистичні алгоритми машинного навчання
big data analysis	статистичний аналіз багатовимірних даних
business intelligence, BI	бізнес-аналітика
time series	часові ряди
spatial statistics	статистичний аналіз часових і просторових залежностей
survey sampling	вибіркові обстеження
design thinking	дизайн мислення
data-driven company	компанія, що використовує аналітику даних у роботі
data center	центр опрацьовування та зберігання даних

Одною з найпростіших моделей статистичних алгоритмів машинного навчання є модель лінійної регресії. Незважаючи на простоту й певну примітивність у порівнянні з іншими алгоритмами машинного навчання, модель є одною з найпопулярніших і використовуваніших, слугує надійною базою для дальшого модифікування чи уточнювання моделі. Чимало просунутіших технік насправді є узагальненнями та розширеннями лінійної моделі. Хоча історично модель лінійної регресії висвітлено в багатьох українськомовних підручниках, однак із набуттям популярности й поширення нових методів науки про дані, усе частіше термінологія, що вживають, працюючи з лінійною моделлю, починає дослівно наслідувати англійськомовну термінологію чужоземних підручників або навіть абревіатури, що походять з англійської. Наведімо, для прикладу, базові терміни моделей лінійної регресії та їхні українськомовні аналоги:

regressor, predictor	фактор моделі
reducible error and the irreducible error	зменшувана й безумовна похибка
bias	зміщення
RSS, residual sum of squares	залишкова сума квадратів
RSE, residual standard error	залишкова стандартована похибка
CI, confidence interval	довірчий інтервал
outlier	викид, аномальне значення
high leverage predictor	високе / аномальне значення фактору
scatterplot	діаграма розкиду
KNN, K-Nearest neighbors method	метод K найближчих сусідів

Працюючи з даними все частіше терміни «набір даних», або ж «вектор спостережень», «вибірка» замінюють на data set, або ж навіть «датасет». Замість популярних у середовищі програмістів підходів щодо «архітектури з керуванням потоком даних» найчастіше маємо вживання терміна dataflow architecture. Алгоритми машинного навчання вже усталено класифікують на supervises / unsupervised learining, забуваючи про можливість уживання термінів «навчання з учителем» і «навчання без учителя», або ж «проконтрольоване навчання» та «непроконтрольоване навчання». Замість термінів training, test and validation dataset (dev set) більш природно було би використовувати відповідно тренувальні, тестові дані, вибірка для перевіряння та покращення моделі. Дані із різноманітних сутностей (entities) уже типово передають за допомогою конектора (connector), хоча нічого не заважає вживати «з’єднувач».

Усе частіше обчислювальних потужностей локальних комп’ютерів недостатньо для ефективного розв’язання масштабованих бізнес-задач із залученням алгоритмів машинного навчання та науки про дані. Тому здебільшого такі моделі розгортають, або ж, як модно казати, «деплоять» (від англ. deploy) у хмарному «датасторі» (від англ. datastore). Яскравими прикладами всесвітнього застосування вказаної хмарної технології є Azure Data Science Solution від Microsoft або ж Data science tools від web-сервісів Amazon. Наведімо для прикладу лише кілька основних англійськомовних термінів, які постійно вживають, працюючи з даними із залученням хмарних технологій, і їхні українськомовні відповідники:

data storage account	обліковий запис збереження даних
workspace	робоча ділянка
pipeline	джерело даних
entity	сутність
datastore	сховище даних
model deployment	розгортання моделі
debuger	налагоджувач
backlog	упорядкований набір черги задач або функцій

Багато термінів і досі не мають усталеного перекладу українською мовою, тому вживають їхні англійськомовні аналоги. Візьмімо, хоча б, стандарт процесу розгортання моделі роботи з даними в хмарному середовищі – процес оркестрації (від. англ. «orchestration»). Якщо хочемо скористатись певним українськомовним аналогом, то радше доведеться говорити про автоматичний керований даними комплексний відлагоджений процес, у якому є підготовка даних, розгортання моделі прийняття рішень і реалізація відповідних задач.

Динаміка сучасного світу приводить до нових викликів, зміни усталених підходів до розв’язання завдань, прискорює потреби в нових висококваліфікованих фахівцях для роботи з даними, які вміють поєднувати блискучі математичні та статистичні знання з умінням розуміти економічну й наукову логіку процесу або явища, прагнуть знайти найефективнішу модель для опису процесу, аналізуванню та готуванню прогнозу, і, зрештою, утілити підсумок роботи в комплексному продукті, результати роботи якого цілком можуть набути всесвітнього масштабу.

1. Зубченко В. П. Математичні основи страхування життя. Київ : ВПЦ «Київський університет», 2016. 224 с. 2. Зубченко В. П., Мішура Ю. С. Стандартизація актуарної та фінансової термінології // Вісник Нац. ун-ту «Львівська політехніка». Серія «Проблеми української термінології». 2016. № 842. С. 59–64. 3. Зубченко В. П., Мішура Ю. С. Стандартизація актуарної термінології, яка стосується видів страхування, інших ніж страхування життя // Вісник Нац. ун-ту «Львівська політехніка». Серія «Проблеми української термінології». 2018. № 890. С. 46–49.