Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 13(141)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3

Библиографическое описание:
Гіміш Е. МАШИНАЛЫҚ ОҚЫТУ АЛГОРИТМДЕРІ ЖӘНЕ ОЛАРДЫҢ ҚОЛДАНЫСЫ // Студенческий: электрон. научн. журн. 2021. № 13(141). URL: https://sibac.info/journal/student/141/207754 (дата обращения: 16.01.2025).

МАШИНАЛЫҚ ОҚЫТУ АЛГОРИТМДЕРІ ЖӘНЕ ОЛАРДЫҢ ҚОЛДАНЫСЫ

Гіміш Ерасыл

Л.Н. Гумилев атындағы, Еуразия ұлттық университеті 7М06103 магистранты,

Қазақстан, Нұр-Сұлтан

Бакиев Мурат Наурызбевич

MACHINE LEARNING ALGORITHMS AND THEIR APPLICATION

 

Yerassyl Gimish

student, ​Department of information systems, Eurasian National University after L.N.Gumilev,

Kazakhstan, Nur-Sultan

 

АҢДАТПА

Мақалада қазіргі таңдағы машиналық оқыту технологиясының алгоритмдері, оларды әр саладағы негізгі мәселелерді шешудегі қолданысы қаралады. Мәселелер мен негізгі ережелерді анықтау кезінде жалпы зерттеу әдістері қолданылды.

ABSTRACT

The article discusses the algorithms of modern machine learning technology, their application in solving key problems in various fields. General research methods were used to identify problems and key provisions.

 

Кілт сөздер: машиналық оқыту; алгоритмдер; әдістер.

Keywords: machine learning; algorithms; methods..

 

Машиналық оқытудың біздің өміріміздегі маңыздылығы оны қолданылу ауқымының арқасында күн сайын өсіп келеді. Көлік кептелістерін талдаудан бастап, өздігінен жүретін көліктерге дейін көптеген міндеттерді өздігінен үйренетін машиналық оқыту программалары орындауда.

Машиналық оқыту - бұл жасанды интеллект әдістерінің класы, оның сипаттамасы - мәселені тікелей шешу емес, көптеген ұқсас мәселелерге шешімдерді қолдану арқылы шешімдерді табу әдісін үйрену. Осындай әдістерді құру үшін математикалық статистиканың құралдары, сандық әдістер, оңтайландыру әдістері, ықтималдықтар теориясы, графтар теориясы, мәліметтермен сандық формада жұмыс істеудің әр түрлі әдістері қолданылады. Машиналық оқытудың негізгі идеясы - компьютер алдын-ала жазылған алгоритмді қолданып қана қоймай, мәселені шешу үшін өздігінен үйренеді.

Машиналық оқытудың басты мақсаты - оқыту үшін пайдаланылатын жиынтыққа кірмеген, бірақ бірдей қасиеттерге ие басқа белгілерді анықтауға қабілетті нейрондық желіні құру.

Үйретуге үлгіні тану, регрессиялық талдау және болжау кіреді. Ең жиі қолданылатын тәсіл алгоритмдердің параметрлік тобы түрінде қалпына келтірілген тәуелділіктің моделін құруға негізделген. Оның мәні берілген прецеденттер жиынтығында қателіктер санын азайту мақсатында модель параметрлерін сандық оңтайландыруда жатыр.

Машиналық оқыту тапсырмаларының көпшілігін бақылаулы оқыту (supervised learning)  және бақылаусыз оқыту (unsupervised learning) деп бөлуге болады. Бұл жерде «бақылау» дегеніміз адамның деректерді өңдеуге араласуын білдіреді. Бақыланатын оқытуда бізде бір нәрсені болжауға қажетті мәліметтер және кейбір болжамдар бар. Бақылаусыз оқытуда бізде тек қасиеттерін табу керек мәліметтер бар.

Басқарылатын оқытуды қарастырайық. Бізде сатылатын 10000 пәтер туралы мәліметтер бар және әр пәтердің ауданын, бөлмелер санын, орналасқан қабатын, ауданын, автотұрақтың бар-жоғын, жақын жердегі метро станциясына дейінгі қашықтықты және тағы басқа мәліметтер бар болсын. Сонымен қатар, әр пәтердің құны белгілі. Біздің міндетіміз - осы ерекшеліктерге негізделген пәтердің құнын болжайтын модель құру. Бұл бақыланатын оқытудың классикалық мысалы, мұнда бізде мәліметтер (10000 пәтер және әр пәтерге арналған әр түрлі параметрлер, ерекшеліктер) және болжануы керек жауаптар (пәтердің құны) бар. Бұл тапсырма регрессиялық әдіс деп аталады.

 

1-сурет. Регрессиялық әдіс арқылы талдау

 

Бұл суретте қызыл нүктелер - қол жетімді деректер (х осі бойымен - функция мәні, у осі бойымен - жауап мәні), көк сызық - құрастырылған модель.

Басқа мысалдар: науқастың онкологиялық аурудың бар-жоғын әр түрлі медициналық көрсеткіштерге сүйене отырып болжау, немесе электрондық пошта мәтіні негізінде спам болу ықтималдығын болжау. Мұндай тапсырмалар жіктеу тапсырмалары болып табылады.

 

2-сурет. Деректерді жіктеу мысалдары

 

Жоғарыдағы суреттің бірінші бөлігінде нысандар түзу сызықпен, екінші суретте қисық сызық арқылы бөлінген. Суреттегі кейбір нысандар қате жіктелген. Бұл жіктеу мәселелеріндегі қалыпты тәжірибе.

Енді болжаудың дұрыс жауаптары алдын-ала берілмейтін бақылаусыз оқытуды қарастырыңыз. Адамдардың белгілі бір санының бойы мен салмағы туралы мәліметтер берілген. Әр санаттағы адамдарға сәйкес мөлшердегі көйлек шығару үшін деректерді 3 санатқа топтастыру қажет. Бұл тапсырманы кластерлік тапсырма деп атайды. 3-ші уретте деректерді оқыту нәтижесінде деректер 3 топқа бөлінген.

 

3-сурет. Деректерді топтастыру мысалдары

 

Тағы бір мысал ретінде, әр объектіні 100 өлшеммен немесе белгімен сипаттайтын жағдайды қарастырайық. Мұндай мәліметтерді талдаудағы басты мәселе деректердің графикалық иллюстрациясын құру, оны жұмсақ түрде айту қиын, сондықтан мүмкіндіктер санын екі-үшке дейін азайта аламыз. Сонда деректерді жазықтықта немесе кеңістікте визуализациялау арқылы көзбен көре аласыз. Бұл өлшемділікті немесе белгілерді азайту проблемасы деп аталады.

Жоғарыда машиналық оқытуға арналған бірнеше мысалдар келтірілген, енді қосымша мысалдар арқылы машиналық оқыту проблемаларының тапсырмаларының түрлерін қарастырайық.

Регрессия тапсырмасы: әр түрлі ерекшеліктерге негізделген нақты жауапты болжау. Басқаша айтқанда, жауап 1, 5, 23.575 немесе кез-келген басқа нақты нөмір болуы мүмкін, мысалы, пәтердің құнын көрсете алады. Мысалдар: алты айдан кейінгі акциялардың құнын болжау, дүкеннің келесі айдағы пайдасын болжау, тестілеу кезінде өнімдердің сапасын болжау.

Жіктеу тапсырмасы: әр түрлі атрибуттарға негізделген категориялық жауапты болжау. Басқаша айтқанда, мұндай мәселеде жауаптардың шектеулі саны бар, мысалы, пациенттің қатерлі ісікке шалдыққанын анықтаған немесе электрондық поштаның спам екенін анықтаған жағдайда. Мысалдар: қолжазбадан мәтінді тану, фотода адам немесе мысық бар-жоғын анықтау.

Кластерлеу тапсырмасы: деректерді ұқсас санаттарға бөлу. Мысалдар: ұялы байланыс операторының клиенттерін төлем қабілетіне қарай бөлу, ғарыш объектілерін ұқсас объектілерге бөлу (галактикалар, планеталар, жұлдыздар және т.б.).

Өлшемді азайту тапсырмасы: біздің мәліметтерімізді N ерекшеліктерімен емес, кіші санмен сипаттауды үйрену (әдетте 2-3 сипаттама беру). Деректерді сығымдау көрнекілікке қосымша мысал бола алады.

Аномалияларды анықтау тапсырмасы: белгілерге сүйене отырып, ауытқулар мен «аномалияларды» ажырата білуге үйрету. Бұл тапсырманың жіктеу тапсырмасынан айырмашылығы жоқ сияқты. Бірақ ауытқуларды анықтаудың ерекшелігі мынада: бізде модельді оқытуға арналған аномалиялардың мысалдары өте аз немесе бізде жоқ, сондықтан біз жіктеу мәселесі сияқты мәселені шеше алмаймыз. Мысал: банк карточкалары бойынша жалған операцияларды анықтау.

Машиналық оқыту модельдерінің танымал алгоритмдері

1. Шешім ағашы

Бұл ағаш сызбасын пайдалануға негізделген шешімді қолдау әдісі. Шешімдер қабылдау моделі олардың ықтимал салдарын, сондай-ақ оқиғаның орын алу ықтималдығын есептей отырып, ресурстарды тұтыну мен тиімділікті ескереді.

Шешімдер ағашы алгоритмдер мен мәліметтер құрылымынан көпшілікке таныс екілік ағаш ретінде ұсынылуы мүмкін. Әр түйін кіріс айнымалысын және сол айнымалының бөліну нүктесін білдіреді (айнымалы сан болса). Жапырақ түйіндері - болжам жасау үшін қолданылатын шығыс айнымалысы. Болжамдар ағашты жапырақ түйініне қарай өтіп, сол түйінде сынып мәнін басып шығару арқылы жасалады. Ағаштар тез үйреніп, болжам жасайды. Сонымен қатар, олар кең ауқымды тапсырмалар үшін дәл болып табылады және арнайы деректер дайындауды қажет етпейді.

Бизнес-процестерді құру туралы айтатын болсақ, ағаш екі жақты жауаптармен («иә» немесе «жоқ») мүмкін болатын сұрақтардың минималды санынан қалыптасады. Жауаптарын бергеннен кейін біз дұрыс таңдау жасаймыз. Мәселе құрылымдалады және жүйеленеді, соңғы шешім логикалық тұжырымдар негізінде қабылданады.

2. Байес классификациясы

Бұл типтегі алгоритмдер Байес теоремасына негізделген қарапайым ықтималдық жіктеуіштер тобына жатады. Функциялар тәуелсіз деп саналады (бұл қатаң немесе аңғал жорамал деп аталады).

Бұл алгоритмның қолданылуы:

  • спамдарды анықтау;
  • жаңалықтарды тақырыптық рубикалармен автоматты түрде байланыстыру;
  • мәтіндік материалдың эмоционалдық белгілерін ашу;
  • бетті және суреттердегі басқа заңдылықтарды тану.

3. Ең кіші квадраттар алгоритмы

Егер сіз статистиканы зерттеген болсаңыз, сызықтық регрессия ұғымын білесіз. Ең кіші квадраттар - оны жүзеге асырудың нұсқасы. Сызықтық регрессия көптеген нүктелер арқылы өтетін түзу сызықты бекіту мәселелерін шешуге мүмкіндік береді. Ол мәліметтерді машиналық оқытуға сәйкестендіру үшін қолданылады, ал ең кіші квадраттар әдісінің өзі қателіктер көрсеткішін құру арқылы қателерді азайту үшін қолданылады.

4. Логистикалық регрессия

Айнымалылар арасындағы тәуелділікті анықтау тәсілі, егер олардың біреуі категориялық тәуелді, ал қалғандары тәуелсіз болса. Мұнда логистикалық функция қолданылады (жинақтаушы логистикалық үлестіру). Логистикалық регрессия - бұл оқиғаларды болжаудың күшті статистикалық әдісі. Ол сұранысқа келесі мәселелерді шешуде ие:

  • несиелік скоринг үшін;
  • есептеулер жетістігін өлшеу үшін;
  • белгілі бір өнімге пайда болжамын құру қажет болғанда;
  • жер сілкінісінің ықтималдығын бағалау және т.б.

5. Векторлық машинаны қолдау (SVM)

Бұл жіктеу және регрессиялық талдау мәселелерін шешуге мүмкіндік беретін алгоритмдердің жиынтығы. Нысан N өлшемді кеңістікте және 2 кластың біріне жатады деп есептелсе, осыған сүйене отырып, SVM әдісі объектілер 2 топтың біріне түсетін етіп (N - 1) өлшемі бар гиперплан жазады. SVM көмегімен машинаны оқытудың ДНҚ-ны біріктіру, сайтта жарнамаларды орналастыру, фотосуреттен жынысын анықтау сияқты күрделі мәселелері шешіледі.

6. Ансамбльдер алгоритмы

Көптеген классификаторларды тудыратын машиналық оқыту алгоритмдерінің негізінде құрылған. Бастапқыда бұл әдіс Байессияның орташаландыруының ерекше жағдайы болды. Содан кейін бұл қосымша алгоритмдермен күрделене түсті:

  • boosting (күшейту)- жіктеушілер ансамблін құру арқылы әлсіз модельдердің күшті модельдерге айналуын қамтамасыз етеді;
  • bagging (пакетке салу) - күрделі классификаторларды жинауға және негізгі жаттығуларға арналған;
  • шығыс кодтау қателерін түзету алгоритмі.

Жалпы, ансамбльдік әдіс жеке болжау модельдерімен салыстырғанда анағұрлым қуатты құрал болып табылады.

7. Кластерлеу алгоритмдері

Көптеген объектілер санаттарға, кластерлерге бөлінеді, әр кластерде ең ұқсас элементтер болуы керек. Кластерлеу үшін әр түрлі алгоритмдер қолданылады (ықтималдық, тығыздық, өлшемді азайту және т.б.).

Машиналық оқытудың кластерлеу алгоритмдерді биологияда геномдағы гендердің өзара әрекеттесуін зерттеу үшін, нәтижелерді Уорд әдісімен өңдеу үшін, социологиялық зерттеулерде, сондай-ақ ақпараттық технологиялар саласында қолданылады.

8. PCA - негізгі компоненттер талдау алгоритмы

Бұл байланысты айнымалылардың бақылауларын негізгі компоненттер жиынтығына немесе сызықтық өзара байланысты емес мәндерге аударуға бағытталған ортографиялық түрлендірудің статистикалық операциясы.

PCA визуалдау және қысу процедуралары үшін, деректерді жеңілдету және азайту үшін және оқу процесінің өзін жеңілдету үшін қолданылады. Бірақ нашар реттелген деректер берілсе, бұл әдісті қолдану қолайлы емес.

9. Сингулярлық ыдырату әдісі

SVD - күрделі немесе нақты сандардан тұратын тік бұрышты матрицаның ыдырауы. Ерекше жағдай - сол негізгі компонент әдісі. Алғашқы компьютерлік көру технологиялары SVD және PCA негізінде құрылған болатын. Қазіргі заманғы SVD алгоритмдері әлдеқайда күрделі, бірақ мәні онша өзгерген жоқ.

10. ICA - тәуелсіз компоненттерді талдау

Бұл сигналдарға, кездейсоқ шамаларға және т.б. әсер ететін жасырын факторларды ашатын статистикалық әдіс. Көп өзгермелі мәліметтер базасы үшін генеративті модель құрылады. Бұл модельде айнымалылардың кейбір жасырын айнымалылары бар, ал араластыру ережелері туралы ақпарат жоқ. Дәл осы жасырын айнымалылар таңдаманың тәуелсіз компоненттері болып табылатын Гаусс емес сигналдар болып саналады.

Қорытындылай келе, алгоритмдердің барлық алуан түрлілігіне байланысты «қайсысын қолдану керек?» деген сұрақ туындауы мүмкін. Бұл сұрақтың жауабы көптеген факторларға байланысты:

  • Деректердің мөлшері, сапасы және сипаты;
  • Есептеудің қол жетімді уақыты;
  • Тапсырманың өзектілігі;
  • Деректермен не істегіңіз келетіндігі.

Тіпті тәжірибелі деректер зерттеушісі бірнеше нұсқаны қолданар алдында қай алгоритмнің жақсы жұмыс істейтінін айтпайды. Машиналық оқытудың басқа да көптеген алгоритмдері бар, бірақ бұл мақалада ең танымал алгоритмдер және олардың қолдану мысалдары келтірілді.

 

Әдебиеттер тізімі:

  1. Мерков А.Б. Введение в методы статистического обучения. 2014. – 33 с.
  2. Никита Прияцелюк, Обзор самых популярных алгоритмов машинного обучения   https://tproger.ru/translations/top-machine-learning-algorithms/
  3. Андрей Павленко. Машинное обучение: алгоритмы, виды, задачи, функции. https://otus.ru/nest/post/1224/
  4. Флах П. Машинное обучение. — М.: ДМК Пресс, 2015. — 400 с.
  5. Иван Паньшин. Машинное обучение для чайников. https://newtonew.com/tech/machine-learning-novice

Оставить комментарий