Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CVIII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 25 декабря 2024 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Шайкова А.А., Пусная О.П. РЕАЛИЗАЦИЯ АЛГОРИТМА ОЦЕНКИ ОБРАЗЦОВ С ПОМОЩЬЮ ФУНКЦИЙ СХОДСТВА // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. CVIII междунар. науч.-практ. конф. № 12(100). – Новосибирск: СибАК, 2024. – С. 18-22.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

РЕАЛИЗАЦИЯ АЛГОРИТМА ОЦЕНКИ ОБРАЗЦОВ С ПОМОЩЬЮ ФУНКЦИЙ СХОДСТВА

Шайкова Анна Александровна

студент, кафедра прикладной информатики и информационных технологий, Белгородский государственный национальный исследовательский университет,

РФ, г. Белгород

Пусная Ольга Петровна

старший преподаватель кафедры прикладной информатики и информационных технологий, Белгородский государственный национальный исследовательский университет,

РФ, г. Белгород

IMPLEMENTATION OF AN ALGORITHM FOR EVALUATING SAMPLES USING SIMILARITY FUNCTIONS

 

Anna Shaikova

Student, Department of Applied Informatics and Information Technologies, Belgorod State National Research University,

Russia, Belgorod

Olga Petrovna

 Senior Lecturer, Departments of Applied Informatics and Information Technologies, Belgorod State National Research University,

 Russia, Belgorod

 

АННОТАЦИЯ

В современном мире в различных сферах жизни человека зачастую возникает необходимость математического или программного определения сходства нескольких образцов, будь то данные, модели, тексты или даже геномы. Для форматизированного определения такого сходства или различия могут применятся функции Рассела и Рао, Жаккара и Нидмена, Дайса, Сокаля и Снифа, Сокаля и Мишнера, Кульжитского, минимизирующие влияние человеческого фактора на результат.

ABSTRACT

In today's world, various aspects of human activity often require the mathematical or computational determination of similarities between multiple samples, such as data, models, text, or even genomic sequences. To formally define these similarities or differences, functions such as those developed by Russell and Rao, Jaccard and Needham, Dice, Sokal and Sneath, Sokal and Michener, and Kulzitsky can be utilized, minimizing human bias in the results.

 

Ключевые слова: функции сходства, образцы, алгоритм, программа.

Keywords: similarity functions, samples, algorithm, program.

 

Функции сходства – это математические методы измерения близости между несколькими образцами в определенном пространстве признаков в случае, когда они имеют бинарное значение. Бинарное значение признаков позволяет человеку или алгоритму однозначно ответить есть ли данный признак у рассматриваемого образца, то есть значение 1 или же его нет, то есть значение 0, сводя к минимуму субъективную сторону оценивания.

С помощью данных функций можно сравнивать образцы с бинарными значениями признаков в абсолютно различных областях. Например, для распознавания образов искусственным интеллектом в сфере информационных технологий, для оценки схожести геномов в генетике или для анализа моделей в экономической сфере. Это дает возможности специалистам различных профессий формализовать и автоматизировать определение сходства объектов, исключив субъективизацию данных и освободив человеческие ресурсы для решения более приоритетных задач. Существует несколько функций оценивающих сходство объектов, ниже описаны некоторые из них.

Функция сходства Рассела и Рао – метрика, основанная на отношении количества общих присутствующих признаков к сумме всех признаков (формула 1).

S1(X1, X2)=                                                                                 (1)

где X1 - первый образец; X2 – второй образец; a – сумма случаев, когда X1 и X2 обладают одним и тем же признаком; b – сумма случаев, когда X1 и X2 не обладают одним и тем же признаком; g – сумма признаков, присутствующих у X1 и отсутствующих у X2, h -  сумма признаков, отсутствующих у X1 и присутствующих у X2, n – сумма всех признаков.

Функция сходства Жаккара и Нидмена – метрика, основанная на отношении количества общих присутствующих признаков к сумме всех признаков за исключением общих отсутствующих (формула 2).

S1(X1, X2)=                                                                                    (2)

Функция сходства Дайса – метрика, основанная на отношении количества общих присутствующих признаков к сумме удвоенного количества общих признаков, признаков, присутствующих у первого и отсутствующих у второго образца, и признаков, отсутствующих у первого и присутствующих у второго образца (формула 3).

S1(X1, X2)=                                                                                       (3)

Функция сходства Сокаля и Снифа – метрика, основанная на отношении количества общих присутствующих признаков к сумме общих присутствующих признаков и удвоенной сумме признаков, присутствующих у первого и отсутствующих у второго образца, и признаков, отсутствующих у первого и присутствующих у второго образца (формула 4).

S1(X1, X2)=                                                                                     (4)

Функция сходства Сокаля и Мишнера – метрика, основанная на отношении суммы общих присутствующих и общих отсутствующих признаков к общему количеству (формула 5).

S1(X1, X2)=                                                                                          (5)

Функция сходства Кульжитского – метрика, основанная на отношении количества общих присутствующих признаков к сумме признаков, присутствующих у первого и отсутствующих у второго образца, и признаков, отсутствующих у первого и присутствующих у второго образца (формула 6).

S1(X1, X2)=                                                                                          (6)

Если объекты различны, то данные функции будут стремится к 0.

На основе вышеописанных функций на языке программирования Python была разработана программа оценки трех образцов, поданных на вход по заданным пользователем критериям. Для демонстрации работы программы было создано семь критериев и подано три входных вектора: X1 = [0,0,0,0,0,0,0], X2 = [0,1,1,1,1,1,1], X3 = [1,1,1,1,1,1,1]. По визуальной оценке данных векторов можно предположить, что в случае сравнения X2 и X3, образцы будут близки, а в остальных случаях далеки друг от друга. Результат работы программы представлен на рисунках 1-4.

 

Рисунок 1. Ввод данных о трех образцах

 

Рисунок 2. Результат сравнения первого и второго образцов

 

Рисунок 3. Результат сравнения первого и третьего образцов

 

Рисунок 3. Результат сравнения второго и третьего образцов

 

Из результатов работы программы видно, что, как и предполагалось, второй и третий образцы наиболее схожи. Это доказывает корректность работы разработанной программы.

Данная программа может помочь в автоматизации сравнения нескольких объектов в различных сферах научной и производственной деятельности, минимизировав субъективизацию оценки образцов. Кроме того, полученные с ее помощью расстояния могут быть использованы в дальнейшей аналитике, так как имеют числовое формализованное представление.

Таким образом в данной статье были рассмотрены функции сходства и их программная реализация, применимые для объективного сравнения различных образцов в любых сферах деятельности человека.

 

Список литературы:

  1. Функции сходства [Электронный ресурс] – Режим доступа. – URL: https://studfile.net/preview/7373176/page:7/ (дата обращения: 15.12.2024)
  2. Коэффициент сходства [Электронный ресурс] – Режим доступа. – URL: https://studfile.net/preview/6877954/ (дата обращения: 15.12.2024)
  3. Показатели сходства, основанные на мерах разнообразия [Электронный ресурс] – Режим доступа. – URL: https://studfile.net/preview/4379052/page:3/ (дата обращения: 16.12.2024)
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий