Поздравляем с Новым Годом!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 4(216)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6

Библиографическое описание:
Бөлтірік А.А. ӘЛЕУМЕТТІК ЖЕЛІЛЕРДЕГІ СЕНТИМЕНТАЛЬДЫҚ ТАЛДАУДЫҢ ӘДІСТЕРІ МЕН ЖІКТЕЛУІ // Студенческий: электрон. научн. журн. 2023. № 4(216). URL: https://sibac.info/journal/student/216/279795 (дата обращения: 04.01.2025).

ӘЛЕУМЕТТІК ЖЕЛІЛЕРДЕГІ СЕНТИМЕНТАЛЬДЫҚ ТАЛДАУДЫҢ ӘДІСТЕРІ МЕН ЖІКТЕЛУІ

Бөлтірік Айдана Алмасқызы

7M06101 магистранты, С.Сейфуллин атындағы Қазақ агротехникалық университеті,

ҚР, Астана қ.

Айтимова Ұлзада Жолдасбековна

научный руководитель,

ғылыми жетекші, ф.-м.ғ.к., қауымдастырылған профессор м.а., С.Сейфуллин атындағы Қазақ агротехникалық университеті,

ҚР, Астана қ.

METHODS AND CLASSIFICATION OF SENTIMENTAL ANALYSIS IN SOCIAL NETWORKS

 

Aidana Boltirik

student, Department of information systems, S. Seifullin Kazakh Agrotechnical University,

Kazakhstan, Astana

Ulzada Aitimova

scientific supervisor, candidate of physical and mathematical sciences, associate professor M.A., S. Seifullin Kazakh Agrotechnical University,

Kazakhstan, Astana

 

АҢДАТПА

Сентиментальдық талдау немесе көңіл-күй талдауы, журнал басылымдарында, әлеуметтік желілердегі  түсініктемелерде (комментарий),  немесе сайт беттерінде жасалған өнімдер туралы пікірлерді жинау және зерттеу жүйесін құруды қамтиды. Сентиментальды талдау бұл желі пайдаланушыларының қалауларын автоматты түрде анықтау және олардың сол қалауларын оң, теріс немесе бейтарапты бағдар бойынша жіктеу. Деректердің сентименті мен классын, нақты айтқанда деректердің жақсы немесе жаман екенін анықтауда біршама маңызды мәселелер туындайды. Кез-келген деректің, ақпараттың, мағлұматтың сентиментальды талдауы, оның ішінде берілген ақпарат көздерін  қазақ тілінде табу қазіргі таңда күрделі мәселе болып табылады. Сондықтан да сентиментальды талдаудың әдістері одан әрі жетілдіруді қажет етеді. Жұмыста сентиментті яғни көңіл-күй талдаудың бірнеше әдістері қарастырылып, көңіл-күй классификаторларының өлшем бірліктері домендерге немесе тақырыптарға қатты байланысты екені анықталады.

ABSTRACT

Sentimental analysis or mood analysis involves creating a system for collecting and studying product reviews, comments on social networks (comments) or on site pages. Sentimental analysis is an automatic determination of the preferences of network users and their classification of these preferences by positive, negative or neutral orientation. There are some serious problems in determining the sentimentality and class of data, namely, whether the data is good or bad. Sentimental analysis of any data, information, information, including in the Kazakh language, is a difficult problem today. Therefore, the methods of sentimental analysis require further improvement. The paper considers several methods of analyzing sentimental, i.e. mood, and it turns out that the units of measurement of mood classifiers are strongly related to areas or objects.

 

Кілт сөздер: сентиментальды талдау, жіктеу әдістері, көңіл-күй классификациясы.

Keywords: sentimental analysis, classification methods, sentimental classification.

 

Компьютерлік технологиялардың дамуымен адамдарда виртуалды қарым-қатынас көмегімен компьютерлік әлеуметтік желілерде байланысу мүмкіндігі мейілінше артып келеді.

Әрине, осы форматтағы қарым-қатынас процесінде адамдардың мінез-құлқын және ақпаратты талдау айтарлықтай жылдам және ыңғайлы. Сондықтан да  әлеуметтік желілерді талдау зерттеушілердің үлкен қызығушылығын тудыруда.

Әлеуметтік желілерді талдау электрондық коммерция, әлеуметтік медианың қарқынды өсуі және жеке тұлғалар мен ұйымдар үшін де пайдалы. Себебі кез келген шешім қабылдау барысында әлеуметтік желілердегі контенттерді пайдалану мүмкіндігінің болуы. Сондықтанда шолуларда ұсынылған пікірлерді болжайтын тиімді және автоматтандырылған тәсіл қажет.

Пікірлерді талдау жүйелері интернеттегі қол жетімді пікір деректерін олардың  полярлығына байланысты оң, теріс және бейтарап деп жіктейді. Интернеттің қазіргі дәуірінде, пікірді талдау - веб-талдау мен табиғи талдау аясында кеңінен зерттелетін тақырыптардың бірі болып табылады. Пікірді талдау құжат, ұсыныс және аспект деңгейінде жүзеге асырылады. Жұмыста талдауды жетілдіру жолдары, осы тақырыпты зерттеу барысында қарастырылған сентиментальды талдау (Sentiment Analysis) және сентиментальды жіктеу (Sentiment Classification) әдістерін салыстыру және оңтайландыру қарастырылған [1].

1-суретте көрсетілгендей сентиментальды жіктеу әдістері тиісті мақалаларды, сондай-ақ бастапқы сілтемелерді бейнелейтін егжей-тегжейлі ақпаратпен талқыланады.

1-сурет. «Сентиметальды жіктеу әдістері»

 

Қоғамдық пікірді талдау қолданылу аясы бойынша, сондай-ақ күрделі  зерттеу міндеттеріне байланысты  кең ауқымды зерттеу тақырыбы болып табылады. Ол әртүрлі салаларды, соның ішінде интеллектуалды деректерді талдау, ақпаратты іздеу, веб-талдау және табиғи тілді өңдеуді зерттейді.

Сентиментті яғни көңіл-күй талдаудың бірнеше әдістеріне тоқталып кетейік.

Тұтынушылардың өнім туралы бүкіл пікірлерін қорытындылауға тырысқан Бинг Лю есебі бойынша клиенттер пікірлері бар тауарлардың нақты нұсқаларына қызығушылық танытады екен және «Пікірлер» бөлімі «оң» немес «теріс» деп бөлінеді. Сонымен қатар Бинг Лю жалпылама  пікір алмасудың 3 кезеңін  қарастыратын әдісті ұсынады:

1. Тұтынушы қарастырған өнімнің аспектісін талдау, әрбір ұсынылған пікірдің белгілі бір сипаттамаға  тән екенін нақтылау;

2. Әр шолуда қарастырылған тұтынушылар пікірін анықтау және олардың оң немесе теріске жататынын анықтау;

3. Қорытыныдылау.

Сентиметальды бағдарларды болжау және пікір ұсыныстарын қадағалау ретінде Бинг Лю  Word Net  онлайн-сөздігін қолданды. Бұл әдіс сөйлем бағдарын болжауда жақсы дәлдік береді. Авторлар Amazon.com өнім өндіретін ірі компанияның тұтынушыларының 5 өніміне талдау жасаған, олар: бір маркалы ұялы телефон, mp3, DVD, ойнатқыштар және сандық камералар. Осы бес өнімнің орташа дәлдігі 84% құрайды [2].

Лонг Цзян талдаулары. Twitter әлеуметтік желісіндегі көңіл-күйді талдауды мақсатқа қарай жіктеуге маманданған. Атап айтқанда сұрақ қою кезінде, мәселе бойынша жағымды, жағымсыз немесе стандартты бейтарап сезімдер болса, сол жиынтықтардың эмоцияларын оң, теріс немесе бейтарап деп жіктейді. Бұл жердегі мәселе: эмоциялар не нәрсеге бағытталған? Бұл мәселені анықтаудың заманауи тәсілдері мақсатқа тәуелді емес стратегияларды үнемі қолдануы, ол берілген мақсатқа тангенциалды көңіл-күйді жатқызуы мүмкін. Сондай-ақ прогрессивті тәсілде сезімді жіктегеннен кейін ойға жіктеудің басқа жиынтығын ғана қабылдайды: яғни олар оның контекст яғни мәтін мәнін елемейді. Жиынтық аймағының басқа өлшем бірліктері әдетте қысқа және түсініксіз болғандықтан, сентиментальды жіктеу үшін тек осы жиынтық туралы ойлау жеткіліксіз.

Руи Ксиа талдаулары. Көңіл-күйді жіктеуде туындаған  кемшіліктермен күресі үшін, қос көңіл-күйді талдау DSA деп аталатын модель ұсынған. Бастапқыда әрбір коучингке кері байланыс жасу арқылы, кері байланысқа қарап ақпараттық өсудің мүлдем бірегей техникасын қолданған. Бұл қос техника түпнұсқа және төңкерілген  коучинг шолуларының алгоритмдік ережесіне негізделген. DSA шеңберін полярлық классификациядан (оң-теріс) 3-кластық классификацияға (оң-теріс-бейтарап) деп кеңейткен [3].

Алек Гуо талдаулары.  Twitter хабарламаларының көңіл-күйін механикалық жіктеу үшін мүлдем ерекше тәсіл ұсынған. Яғни хабарламалардағы сұрақ терминіне қатысты пікірдің оң немесе теріс деп жіктелуі. Бұл көбінесе сатып алудан бұрын брендке қатысты немесе өнімге деген көзқарасты талдауды қажет ететін клиенттер және халықтың көңіл-күйін бақылауды жүзеге асыратын компаниялар үшін пайдалы.

Қазіргі таңда Twitter сияқты микроблог қызметтеріндегі хабарламалардың көңіл-күйінің жіктелуіне талдау жасалмағандығы байқалады [4].

Мэйт талдаулары - мәтіннен көңіл-күйді анықтауда лексикаға негізделген лингвистикалық бағдар калькуляторы деп аталатын тәсілді ұсынады. Олардың лингвистикалық бағытын (полярлық пен күш) ескере отырып түсіндірілетін сөздердің сөздіктерін қолданды және зерттеулерінде интенсификация мен теріске шығаруды қамтыды [5].

Қазіргі кезде әлеуметтік желі адамзаттың күнделікті өмірінде басты рөл атқарады десек қателеспейміз. Сондықтан, компаниялар осы мүмкіндіктерді құр жібермей  өздерінің бизнес жоспарларын әлеуетке назар аударту арқылы пайдалануға тырысады.  Бизнес- компанияның әрдайым желіде болуы  клиенттің назарын аудартатын контент жасау арқылы жүзеге асырылады. Өз кезегінде, тұтынушылар белгілі бір өнім туралы компанияның әлеуметтік желілерінде қалдырылған жариялымдарында (пост) комментарий, реакция  қалдыру арқылы пікірмен бөліседі. Осы сценарийді ескере отырып, тұтынған өнімге  пайдаланушылардың  талдау реакциясының   автоматтандырылған  әдісін құру компанияларға пайдалы болып келеді [6]. Өнім туралы пікір қалдыратын пайдаланушыларды білу компания үшін үлкен артықшылық болып саналады. Мәселен өнім туралы тұтынушының қандай пікірде екенін, сол пікір арқылы қандай өнімге сұраныс бар екенін және қай өнімді одан әрі жетілдіру керек екенін білу және т.б.

Python 3.7, Emoji and DeepMoji library, Jupiter Notebook технологиялар арқылы  сентиментальды сезімдердің кітапханасын пайдалана отырып, негізгі жүйедегі жиіліктеу әдісі қолданылды. Жиіліктеу әдісінің негізгі мақсаты сезімдердің сыни ойлауда дұрыс және нақты жауабын шығару. Мысалы, бейтарап сезімдерді контекст бойынша не шынымен бейтарап сезімде, не мысқылдық (сарказм) түрінде болуы мүмкін. Сондықтан да жүйенің барынша дұрыс нәтиже шығаруы үшін осы әдіс маңызды.

Жұмыста сентимент талдау мәтін (контекст) мен эмодзи үшін бөлек жүргізілді. Мәтіннің көңіл - күйін бағалау үшін біз ашық бастапқы API-ді қолдандық, ал эмодзи үшін әр эмодзи бағалау кестесін қолданылды. Әрбір сентиментальды сезімге арнайы салмақ беріледі. Сол арқылы барлық сезім түрлері талданып, нақты шешім шығарылады. Ал екінші мән ретінде мәтіннің контексті түрде қай типте болуы алынады. Мысалға, арнайы мысқылдау типтегі контекстті жазбаны төмен, яғни теріс сын пікірге жақын болады. Бірақ ол контексте мысқылдау «жақсы»  жағына қарай болуы мүмкін.

Сентиментальды сезім саны қолданатын екі кітапханаға байланысты, мүлде қолданбайтын және барлық жүйелерде болмайтын сезім санын есептемейміз. Ал негіз ретінде мәтіндегі контекст есептеледі. Осы арқылы біз негізгі орташа деңгейді шығарылады. Негізгі 5 контексті мәтін ретінде сыни ойлау қарастырылды:

  1. Жағымды пікір;
  2. Мысқылды жағымды пікір;
  3. Нейтралды;
  4. Мысқылды жағымсыз пікір;
  5. Жағымсыз пікір.

Әрбір берілген пікірлер болашақтағы бизнес-жоспарларды алға қарай өрбуіне үлкен әсерін қосады. Сондықтан талдауларды жақсарту үшін сентиментальды талдау құралдарын және машиналық оқыту алгоритмдерін одан әрі жетілдіру жолдары қарастырылуда.

Көңіл-күйді талдау немесе пікір жинау үшін зерттеушілер көптеген жұмыстар мен зерттеулер атқарған. Тіпті кей зерттеулерде Байес классификаторын қолдана отырып, көңіл-күй класын жіктеу бойынша көптеген жұмыстар мен эксперименттер жүргізілген [6]. Сондай-ақ зерттеушілер кез келген әлеуметтік желі болмасын, сайт немесе онлайн сауда сияқты сайттардан деректер жинап, осы зерттеулер арқылы бізге эмоцияны сезімді онай анықтай алатын жақсы көңіл күй анализаторы қажет екенін көрсетті.

Қорытынды:

Жұмыста қазіргі уақытта Интернетте қол жетімді құрылымдалмаған деректердің үлкен көлемін өңдеуге арналған белгілі зерттеу саласы болып табылатын көңіл-күйді талдау мәселесіне шолу берілген. Көңіл-күйді анықтау шолуларды жіктеу, шолуларды жалпылау және әртүрлі нақты уақыттағы қолданбалар сияқты ақпараттық жүйелердегі қолданбалардың үлкен таңдауын қамтиды. Сентиментальды немесе көңіл-күй классификаторларының өлшем бірліктері домендерге немесе тақырыптарға қатты байланысты екені анықталды. Бірде-бір жіктеу моделі баламадан дәйекті түрде асып түспейтіні анық, әр түрлі таңдау түрлері әр түрлі үлестірімге ие. Бірліктердегі әртүрлі таңдау түрлері мен жіктеу алгоритмдері арзан жүйеге біріктіріліп, осылайша олардың жеке кемшіліктерін жеңетінін және бір-бірінің артықшылықтарына ие болатынын көңіл-күйді жіктеудің тиімділігін арттыратынын көрсетеді. Сондықтан болашақта жіктеу нәтижелерінің дәлдігін жақсарту үшін жеке тәсілдердің кемшіліктерін жою және бір-бірінің артықшылықтарын пайдалану үшін әртүрлі тәсілдерді біріктіру қажет.

 

Әдебиет тізімі:

  1. Park, Do-Hyung, and Sara Kim. «The effects of consumer knowledge on message processing») Electronic Commerce Research and Applications 7, № 4 2009, 399-410 p.
  2. Hu, Mining, and Bing Liu. "Mining and summarizing customer reviewsdz, ACM, 2004, 168-177 p.
  3. Xia, R., Xu, F., Zong, C., Li, Q., Qi, Y., & Li, T. (2015). Dual sentiment analysis: Considering two sides of one review. Knowledge and Data Engineering, IEEE Transactions on, 27(8), 2120-2133 p.
  4. Go, A., Bhayani, R., & Huang, L. (2009). Twitter sentiment classification using distant supervision. CS224N Project Report, Stanford, 1, 12.
  5. Maite Taboada, Lexicon-BasedMethods for Sentiment Analysis, Submission received: 14 December 2009; revised submission received: 22 August 2010; accepted for publication: 28 September 2010. Volume 37, Number 2
  6. Tan, Songbo, et al. "Adapting naive bayes to domain adaptation for sentiment analysis." Advances in Information Retrieval. Springer Berlin Heidelberg, 2009. 337-349p.

Оставить комментарий