Статья опубликована в рамках: Научного журнала «Студенческий» № 41(127)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5

Библиографическое описание:

Асанғали А.С., Саурбек Ұ.Б. ҚАЗАҚ ТІЛІНІҢ НЕЙРОНДЫҚ МАШИНА АУДАРМАСЫ ҮШІН БЕЛГІСІЗ СӨЗДЕРДІҢ АУДАРМАСЫН ЗЕРТТЕУ // Студенческий: электрон. научн. журн. 2020. № 41(127). URL: https://sibac.info/journal/student/127/196427 (дата обращения: 22.07.2026).

ҚАЗАҚ ТІЛІНІҢ НЕЙРОНДЫҚ МАШИНА АУДАРМАСЫ ҮШІН БЕЛГІСІЗ СӨЗДЕРДІҢ АУДАРМАСЫН ЗЕРТТЕУ

Асанғали Айгерім Серікбайқызы

2-курс магистранты, «Ақпараттық жүйелер» мамандығы, Ақпараттық технологиялар департаменті, ҚазҰУ,

Қазақстан, Алматы

Саурбек Ұлжан Болатханқызы

2-курс магистранты, «Ақпараттық жүйелер» мамандығы, Ақпараттық технологиялар департаменті, ҚазҰУ,

Қазақстан, Алматы

Тукеев У.А

научный руководитель,

проф., ғылыми жетекші Ақпараттық Жүйелер мамандығы, Ақпараттық Технологиялар кафедрасы,

ҚазҰУ, Алматы қ.

АННОТАЦИЯ

Диссертация тақырыбы қазақ тілінің нейрондық машина аудармасы үшін белгісіз сөздердің аудармасын зерттеу мәселесіне арналған. Машиналық аударма (MА) жасанды интеллект саласы ретінде 50 жылдан бері дамып келеді. Жақында машиналық аударма жүйелерін жүзеге асыруда екі негізгі бағыт бөлінді: табиғи тілді көп деңгейлі рәсімдеу және параллель мәтіндік корпустар негізінде тілдердің бірлескен статистикалық сипаттамаларын пайдалану. Қазіргі уақытта MА жүйелерінің мысалдары сөйлемдер мен мәтіндерді семантикалық талдау деңгейіне көшу арқылы МА сапасын жақсарту қажеттілігін көрсетеді. Мұндай жүйелер үшін аударма сөздіктерін автоматты түрде құратын әдістер, сондай-ақ семантикалық құрылымдардан табиғи тілдік конструкцияларды синтездеуге арналған классикалық және статистикалық алгоритмдер ерекше маңызды болып табылады.

Кілттік сөздер: Жасанды интеллект, машиналық аударма, мәтін генерациясы, қайталанатын нейрондық желілер, тілдік модель.

Бүгінгі күні машиналық аударма әзірлеушілері теория мен тәжірибе саласында көп жұмыстар атқарды. Алайда, көптеген мәселелер әлі шешілген жоқ. Сондай-ақ елшілерден аудармаға ауысу кезінде мәтін сөздерінің синтаксистік және семантикалық талдауында туындайтын қиындықтарды атап өткен жөн.Соңғы уақыттаға дейін бұл міндеттерді шешу кезінде ең алдымен, жеке аудармалар жасалынды, ал көп мағыналы сөздер (полисемия) синтаксистік және семантикалық есепке алу құралдары негізінен шешілді. Батыс пен Шығыс тілдері арасындағы МА проблемалары ашық түрдегі синтаксис және семантикадағы айырмашылықтар өте көп.Мысалы, түркі тілдерінің аудармасы (қазақ, әзірбайжан, өзбек,түрік, татар және т. б.) бай құрылымы бар морфология, түбірінде флективті-аналитикалық тілдерден ерекшеленеді (ағылшын, неміс, испан және т. б.), флективті - синтетикалық (орыс және т.б.)[1].

Түркі тілдері негізіндегі МА проблемалары алғаш рет 1961 жылы АҚШ-тың Джорджтаун университетінде (АҚШ) Достерта [2] басшылығымен зерттелінді. Осы зерттеулер нәтижесінде ағылшын-түрік машиналық аударма жүйесі (МАЖ) дайындалды. Жүйе алгоритмдер мен ағылшын тілінің 700 сөздігімен эквивалентті түрік тілі сөздіктерінен тұрды.

1960-70 жж. аралығында бұрынғы КСРО-да түркі тілдерінің МАЖ-не бірқатар зерттеулер жүргізілді. Олардың арасында татар тілінің синтаксистік және морфологиялық талдауы [4,5,6,7]; морфологиялық талдау және өзбек тілінің синтезі бойынша моңғол тілін талдау жұмыстарын атап өтуге болады[3].

Мәтіндерді табиғи тілге аударудың негізгі проблемаларына мыналар жатады: сөздер мен синтаксистік құрылымдардың полемемиясы, шектеулі тақырыптық аймақтағы семантикалық құрылымның жаһандық сипаттамасының практикалық күрделілігі, лингвистикалық заңдылықтарды сипаттаудың тиімді формальды әдістерінің болмауы және т.б. [8]. MА сөздіктерді белгілі бір тар тақырыпта қабылданған арнайы терминологияға, сондай-ақ өңделетін құжаттар түрлерінің қайталануына сәйкес келтіргенде ғана күшіне енеді. Машиналық аударманың міндеттері әзірлеушілер үшін әр түрлі мәселелер туғызады. Депутаттық проблеманы әсіресе күрделі және тривиалды емес ететін мәселелерге тоқталайық. Оларды үш бағытқа жатқызуға болады [8]:

- түсініксіздік мәселелер;

- тілдердегі құрылымдық және лексикалық айырмашылықтардың мәселелері;

- бірнеше сөзден тұратын грамматикалық конструкциялар және т.б.

Әрине, бұл проблемалар МА жүйелерінің күрделілігінің жалғыз себебі емес. Нақты жүйенің көптеген ережелерімен, грамматикалық құрылымдармен және олардың сипаттамасымен байланысты басқа мәселелерді атап өтуге болады.

Сонымен бірге, табиғи тілдерде бұл сөз жалғыз мағыналық бірлік емес. Олар бір уақытта бірнеше мағыналық бірліктерді қолданады (морфемалардың деңгейі, сөздердің деңгейі, сөз тіркестерінің деңгейі, сөйлемдер деңгейі және т.б.), ал одан жоғары деңгей бірліктерінің мағынасы әрдайым төменгі деңгей бірліктерінің мағынасына қарай анықтала бермейді (бұл қатынастарда өте айқын көрінеді) морфемалар мен сөздер деңгейлері арасында). Сондықтан машиналық аудармаға арналған сөздіктерде әр түрлі деңгейдегі бірліктер болуы керек [9].

Әр түрлі тілдерде сөйлейтін және жазатын халықтар арасындағы ғасырлық қарым-қатынас тәжірибесі жақсы аудармашының аударылған мәтіннің мағынасын түсініп қана қоймай, аударма жүзеге асырылатын тілдің фразеологиялық байлығына ие болуы керек екенін көрсетеді. Осылайша, мәтіндерді қолмен аудару сөзбе-сөз емес, фразеологиялық тұрғыдан көбірек. Бұл жағдай машиналық аудармада ескерілуі керек.

Машиналық аударма жүйелеріндегі маңызды орынды автоматтандырылған сөздік қызметі алуы керек, оның міндеті - құру және жүргізу (қосу, баптау). Автоматтандырылған сөздік қызметіндегі адамның рөлі олардың ішінен сөздік элементтерін бөліп алып, шығатын тілге тиісті баламаларды тағайындау үшін шетелдік мәтіндерді белгілеуден тұрады. Мәтіндерге түзетулерді құрылғыға беруге болады.

Белгісіз сөздердің аудармасын зерттеу.

Назар аударуға негізделген нейрондық машинаны аудару жүйесі бастауыш сөйлем берілген аудармалардың шартты таралуын есептейді:

Мұны кодтаушыдан, декодерден және назар аудару механизмінен тұратын нейрондық желі жасайды.

Кодератор көбінесе бастапқы сөйлемді сөзбе-сөз оқитын екі бағытты қайталанатын нейрондық желі ретінде жүзеге асырылады. Кодермен оқымас бұрын, әр бастапқы w_t^x∈ V сөзі вектордың кеңістігіне проекцияланады:

x, (1)

мұндағы 1(w_t^x) - бұл ыстық деп анықталған вектор

1(wt )j = 0, немесе j = w_t^x. (2)

E_x^∈ R^E^{×|V |} бастапқы сөздерді ендіру матрицасы, мұнда E және |V | сәйкесінше сөз ендірудің өлшемі мен лексика мөлшері.

Сөздерді енгізудің векторларының тізбектілігін алға және кері қайталанатын желілерден тұратын екі бағытты кодердің қайталанатын желісін оқиды. Алға бағытталған қайталанатын желі тізбекті солдан оңға қарай оқиды:

→− →−

h_t= φ (h_t−₁,x_t),

кері желі оны оңнан солға қарай оқиды:

→− ←−

мұндағы h₀ және h_T₊₁ жасырын күйлері нөлдік векторлар ретінде инициалданады. Алдыңғы және кері қайталанатын желілерден жасырын күйлер әр қадам сайын аннотация векторын құру үшін біріктіріледі h: . Бұл байланыстыру С мәтінмәніне әкеледі, бұл оның қосындысы аннотация векторлары: C = {h₁,h₂,...,h_T}.

Декодер екі қосалқы компоненттен тұрады - қайталанатын желі және назар механизмі. Декодердегі қайталанатын желі - бұл барлық алдыңғы мақсатты сөздер мен бастапқы сөйлемдерді ескере отырып, келесі мақсатты сөз бойынша шартты бөлінуді есептейтін бір бағытты тіл моделі:

Декодердің қайталанатын желісі z_t0 ішкі жасырын күйін сақтайды. t⁰қадамында әрдайым C контекстіндегі аннотация векторларын таңдау немесе салмақтау үшін алдымен механизмді қолданады. Берілген нейрондық желі болып табылатын назар аудару тетігі алдыңғы декодердің жасырын күйін де, біреуін де қабылдайды. Аннотация e_t0_,t векторларын анықтайды және тиісті баллды қайтарады.

e_t0,t = f_ATT(z_t0−1,h_t).

Бұл сәйкестік баллдары оң болып қалыптасады және 1-ге тең:

. (3)

Нормаланған баллдарды аннотация векторларының өлшенген қосындысын есептеу үшін қолданамыз:

T ct0 = Xαt0,tht t=1

жасырылған күйін жаңарту үшін декодер қайталанатын желі қолданады

z_t0 = φ_z(z_t0₋1,^y_t0−₁,c_t0).

Дәл осылай кодерге φ_z LSTM немесе GRU ретінде енгізіледі. y_t0₋₁- бұл мақсатқа бағытталған сөздерді ендіру векторы

y, (4)

V ⁰ мақсатты лексикасындағы әр сөздің ықтималдығы есептеледі

мұнда E^y_i - мақсатты сөздерді ендіру матрицасының i-ші қатардағы векторы. Нейрондық машинаны аудару моделі, әдетте, үлкен жаттығу параллель корпусын қолдана отырып, бастапқы сөйлем берілген жағдайда дұрыс аударманың ықтималдығын арттыру үшін оқытылады. Мұны стохастикалық градиентті түсіру арқылы жүзеге асырылады, мұнда лог-ықтималдылықтың градиенті артқы аралық алгоритммен тиімді есептеледі.

Таза нейрондық машинаны аудару жүйелерінде салыстырмалы түрде үлкен жұмыс жүргізілгеніне қарамастан, НМА жүйелерінде лексикадан тыс (вне словаря) мәселесін шешетін ешқандай жұмыс болған жоқ.

Қолданылған әдебиеттер:

[Turian соавт., 2010] Джозеф Туриан, Лев Ратинов және Йошуа Бенгио. Сөздік бейнелер: жартылай бақыланатын оқытудың қарапайым және жалпы әдісі. Есептеу лингвистикасы қауымдастығының 48-ші жыл сайынғы жиналысының материалдарында, 384–394 беттер, 2010 ж.
[Калчбреннер және Блунсом, 2013] Н.Калчбреннер және П. Блунсом. 2013. Қайталанатын үздіксіз аударма модельдері. EMNLP-де.
[Суцкевер және басқалар, 2014] Суцкевер И., О. Виняльс және Q. В. Ле, 2014: Нейрондық желілермен жүйелі оқуға дайындық. Ақпаратты өңдеудің нейрондық жүйелеріндегі жетістіктер (NIPS).
[Чо және басқалар, 2014] Статистикалық машинаны аудару үшін rnn кодтаушы-декодерін қолдана отырып, фразалық сөйлемдерді үйрену. EMNLP-де.
К.В. Воронцов. Математические методы обучения по предедентам (теория обучения машин).
Taboada M., Brooke J.,Tofiloski M., Voll K., Stede M. (2011), Lexicon based methods for sentiment analysis, Computational Linguistics, Vol. 37(2), pp. 267–307.
Ding X., Liu B., Yu P. S. (2008), A holistic lexicon based approach to opinion mining, Proceedings of the Conference on Web Search and Web Data Mining (WSDM), pp. 231–240. Hu
Интернет желісінен https://vvs-info.ru/helpful_information/poleznaya-informatsiya/potentsialnye-potrebiteli/
Интернет желісінен https://web112.biz/news/13554-kak-pravilno-iskat-klientov-v-socialnih-setyah-sposobi-i-rekomendacii/