Поздравляем с 9 мая!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CCX Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 14 апреля 2025 г.)

Наука: Филология

Секция: Лингвистика

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Шорманова Ж.М. ҚАЗАҚ ТІЛІНЕ АРНАЛҒАН ПАРАЛЛЕЛЬ КОРПУСТАРДЫҢ ӨҢДЕУ ҚҰРАЛДАРЫ (МОРФОЛОГИЯЛЫҚ ТАЛДАУ ЖӘНЕ POS-ТЕГТЕУ) // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. CCX междунар. студ. науч.-практ. конф. № 7(209). URL: https://sibac.info/archive/meghdis/7(209).pdf (дата обращения: 09.05.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

ҚАЗАҚ ТІЛІНЕ АРНАЛҒАН ПАРАЛЛЕЛЬ КОРПУСТАРДЫҢ ӨҢДЕУ ҚҰРАЛДАРЫ (МОРФОЛОГИЯЛЫҚ ТАЛДАУ ЖӘНЕ POS-ТЕГТЕУ)

Шорманова Жұлдыз Марғұланқызы

Л.Н.Гумилев атындағы Еуразия Ұлттық университетінің студенті, «6B02305 - Қазақ филологиясы» мамандығы студенті

Астана, Қазақстан

Аитова Нұрлыхан Нұроллақызы

научный руководитель,

ғылыми жетекші, филол.ғ.к., Л.Н. Гумилев атындағы ЕҰУ қазақ тіл білімі кафедрасының қауымдастырылган профессоры,

Астана, Қазақстан

АҢДАТПА

Бұл мақалада қазақ тіліне арналған параллель корпустардың  POS белгілеу және белгілеу тәжірибесі бойынша зерттеу нәтижесі берілген. Корпустар негізінен қазақ және орыс көркем мәтіндерінің параллель жинағынан құралған. Бұл жұмыс тілдік бөлік туралы мәліметтерді енгізу үшін корпусты түсіндіру процесінің бір бөлігі. Зерттеу барысында туындаған мәселелерге тоқталады. Мысалы, тегтеу сапасы ойдан шығарылған мәліметтерге қолданғанда төмендейді. Ал, бар аннотациялық схемалардың барлығы тілге байланысты болып келеді. Автор одан әрі талдау дәлдігін арттыру үшін жалпы тегтер жинағын құрастырып, негізгі қателік түрлерін анықтады.

 

Түйін сөздер: көптілді ресурстар, параллель корпус, аннотация, POS тегтер, тегтер корпусын құру.

 

Қазірде тіл мен аударма тәжірибесін оқыту әдістемесінде әртүрлі жанрдағы мәтіндердің электронды параллельді корпусын жасау және пайдалану өзекті. Қазақстандағы мұндай бағдарламалар әлі толыққанды жасала қойған жоқ, дегенмен параллель мәтіндер аударманы салыстырмалы талдау үшін бұрыннан қолданылған [1].Аты айтып тұрғандай, «параллель корпус» деген термин қазір бір тілдегі түпнұсқа мәтіндер мен басқа тілдерге аударылған мәтіндерді, сондай-ақ үшінші тілдегі түпнұсқалар мен аудармаларды қамтитын мәтіндер жиынтығын білдіреді. Мұндай корпустар тіл үйретуге арналған материалдардың бай көзі екені анық. Сонымен қатар, параллель корпус статистикалық машиналық аударма жүйелері үшін оқу дерегі ретінде қызмет етеді. Корпустық тіл білімінде ғалымдар корпустарды тілдік сипаттарына орай: «Параллельдік талаптары бойынша корпустар біртілдік, екітілдік және көптілдік деп бөлінеді. Біртілдік корпустарда диалектілер, варианттар қарама-қарсы қойылады» [2]. Қазіргі уақытта ҚТҰК (Қазақ тілінің ұлттық корпусы) базасында қазақ-орыс тілдерінің параллель корпусы жасалды [3]. Жобаның негізгі мақсаты - тіларалық лингвистика мен аударма саласындағы жалпы зерттеулермен қолданбалы жұмыстарға арналған көп функционалды құрал құру. Сонымен қатар, қазақ тіліндегі мәтіндердің басқа тілдерге аударылған нұсқаларының базасын жасап, қазақ тілін оқытудың лингвистикалық платформасын қалыптастыру. POS-tagging корпусын құру жалпы болғанымен, көптілді мәліметтермен істегенде, осы сияқты жағдайларда қосымша күрделілік туындайды. Мәселен, испан және неміс тілдерінің әрқайсысының өз грамматикалық ерекшеліктері және қолданылатын терминологиясы бар. Сәйкесінше, тілдердің әрқайсысы бір-бірінен ауқымы және егжей-тегжейлерімен айтарлықтай ерекшеленетін аннотация схемаларын қолданады. Дегенмен, қазақ және орыс тілдеріндегі деректердің үлкен көлемін тиімді талдау үшін пайдаланушыға тегтерді ұсыну үшін бірыңғай формат пен ережелері бар тегтеу схемасы қажет. Екінші жағынан, ҚТҰК корпусының құрамы негізінен көркем әдебиет мәтіндерінен тұрады.

Ғалымдар корпустарды құрастырудың технологиялық үдерісін мынандай кезеңдерге бөледі:

1. Мәтіндерді корпусқа енгізу алдын ала жасалған дерекнама тізіміне сәйкес келуі.

2. Мәтіндерді мәшине оқи алатын пішінге келтіру. Корпусты қарастыру және құрастыру үшін мәтіндерді электрондық пішінге келтіру әртүрлі тәсілдермен жүзеге асырылады:

- Қолмен енгізу,

- Сканерлеу,

- Интернеттен алу,

- Баспа материалдарын түпнұсқа-макет түрінде енгізу және т.б.

3. Мәтіндерді талдау және алдын ала өңдеу, бұл - бірінші саты. Онда мәтіндер әртүрлі дереккөздерден алынады, содан кейін филологиялық тексеруден және түзетуден өтеді. Бұл жұмыс мәтіндерді дұрыстауға, қателерді жоюға және жалпы сапасын арттыруға бағытталған. Сонымен қатар, мәтіндерді технологиялық жолмен өңдеу жасалады. Яғни, библиографиялық мәліметтер жиналады, сондай-ақ мәтіндерге сыртқы әсерлердің қалай әсер ететіні зерделенеді. Бұл, мәтіндерді барлық қырынан зерттеуге және оларды одан да тиімді пайдалануға мүмкіндік беретін процесс.

4. Айырбастау (конвертациялау) және графемалық талдау. Кейбір мәтіндер бір немесе бірнеше кезеңдік өңдеуден өтіп, олардың әріптері мен графикалық ерекшеліктері түзетіледі.

5. Мәтін белгіленімі (Разметка текста).

6. Автоматты белгіленім нәтижелерін түзету: қателерді түзету және бірізділікке келтіру.

7. Белгіленімнен өткен мәтіндерді мамандандырылған лингвистикалық ақпаратты-іздестіру жүйесінің құрылымына ауыстыру (corpus manager).

8. Корпусқа қолжетімділікті қамтамасыз ету [2].

Әр корпустық жүйе бұл кезеңдерден өтуі керек және оның ішіндегі ең маңызды процесс - POS белгілеу. Алдымен POS тегтеуге көшпес бұрын, токенизацияны қысқаша қарастырғанымыз жөн. Бір қарағанда, сөздерді бөлу, сөйлемдерді жеке сөздерге ажырату оңай сияқты, егер сөзді екі жағынан да бос орындар немесе тыныс белгілерімен шектелген сөздер ретінде анықтап, бұл солай болар еді. Дегенмен, токенизациялау - әлдеқайда күрделі жұмыс. Біріншіден, токенизация жасау алдыңғы сөйлемдерді бөлуге тікелей тәуелді емес. Сөйлемді бөлудің өзі кейбір тыныс белгілерінің, әсіресе нүкте сияқты белгілердің анық еместігіне байланысты оңай емес. Жаңаша қысқартулар әрдайым пайда болады.

Сонымен қатар, әліпбилік жазу қолданылатын тілдерде, мысалы, орыс немесе қазақ тілінде, орфографиялық сөз (бос орынмен бөлінген) морфосинтаксистік сөзге тура келе бермейді, яғни әрі қарай лингвистикалық талдауға қажетті сөздік бірлік (токен) болмауы мүмкін. Токенизация мәселелері нақты тілдің орфографиялық ережелеріне қарай әртүрлі болады. Орыс және қазақ тілдеріне байланысты кездескен кейбір мәселелер төменде келтірілген. Бұл тізім толық емес, тек токенизацияның қандай қиындықтарға тап болуы мүмкін екенін көрсету үшін берілген.

Бірінші жағдай – көпсөздік бірліктер, яғни бір морфосинтаксистік сөзге бірнеше орфографиялық сөз сәйкес келген кезде. Мысалдар төменде ұсынылған:

- Орыс және қазақ тілдеріндегі күрделі предлогтар (в отличие от, в связи с, қарамастан, сәйкесінше)

- Орыс тіліндегі күрделі бағыныңқы жалғаулықтар (потому что, несмотря на то что)

- Орыс тіліндегі етістіктердің өздік бөлшектерімен қолданылуы (заниматься, бояться)

- Көпсөздік жалқы есімдер (Нұр-Сұлтан, Санкт-Петербург)

- Күндер (11 қаңтар 2011 ж.), телефон нөмірлері және ішіне бос орын кіретін басқа да сандық тізбектер.

Қайта, бірігу жағдайы да бар, яғни бір орфографиялық сөз бірнеше морфосинтаксистік сөзге сәйкес келген кезде. Бұл жағдайларға мыналар кіреді:

- Орыс тіліндегі энклитикалық формалар, яғни етістіктерге қосылатын екпінсіз шылаулар мен есімдіктер (мысалы, посмотрел-ка, сделай-ка, скажи-ка).

- Қазақ тіліндегі тәуелдік және септік жалғаулары, олар есім сөздерге қосылып, күрделі морфологиялық құрылымдар жасайды, мысалы: кітабымнан ("менің кітабымнан"), үйіңде ("сенің үйіңде").POS тегтері - бұл кіріс мәтіндегі әрбір сөздің бөлігін анықтау, яғни, оның пішіні мен қолданысына байланысты сөздің қай түріне жататынын көрсету әрекеті. Демек, бұл процесс екі сатыдан тұрады: (а) белгілерді беру: әрбір сөзге мүмкін болатын тегтердің тізімін тағайындау; (b) тегтерді таңдау: әртүрлі әдістер арқылы, әр сөзге берілген тегтер саны нақты мәтін үшін ең дұрыс нұсқаға дейін қысқартылады. Бұл оңай емес, себебі сөздер әртүрлі мағына беруі мүмкін және толық синтаксистік талдаусыз, тіпті адамдар үшін де тегтерді дұрыс таңдау қиын болады [4].

Бүгінгі күні қазақ тіліне арналған POS тегтеу жүйесін дамыту үшін келесі іс-әрекеттер қажет:

- Морфологиялық базаны кеңейту – барлық сөз формаларын қамтитын үлкен корпус жасау және оны үнемі жаңартып отыру.

- Статистикалық және нейрондық тәсілдерді қосу – жасанды интеллект пен машиналық оқыту технологияларын пайдалану арқылы тегтеудің нақтылығын жақсарту.

- Контексттік талдауды жетілдіру – сөздердің әртүрлі мағыналарын ескере отырып, нақты мәтін контекстіне байланысты тегті таңдау.

- Қазақ тілінің ерекшеліктеріне сай тегтеу жүйесін құру – жалғаулар, тәуелдік, септік формаларымен дұрыс жұмыс істейтін модельдер жасау.

Осы қадамдарды жасау арқылы қазақ тіліндегі POS тегтеудің сапасын арттыруға мүмкіндік бар. Бұл автоматтандырылған мәтін өңдеу, машиналық аударма және басқа да лингвистикалық технологиялардың дамуына жол ашады.

 

Әдебиеттер:

  1. Manapbayeva Zh. The use of parallel corpora in teaching languages and translation practice. Tiltanym. 2023;(2):182-189. https://doi.org/10.55491/2411-6076-2023-2-182-189 // https://www.tiltanym.kz/jour/article/view/1080
  2. Жұбанов А.Қ., Жаңабекова А. Корпустық лингвистика. – Алматы: «Қазақ тілі» баспасы, 2017. – 336 б.
  3. Қазақ тілінің ұлттық корпусы// URL: https://qazcorpus.kz/
  4. Jurafsky, Daniel and James H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition//chromeextension://efaidnbmnnnibpcajpcglclefindmkaj/https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий