Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XXXV Международной научно-практической конференции «Естественные и математические науки в современном мире» (Россия, г. Новосибирск, 05 октября 2015 г.)

Наука: Математика

Секция: Теория вероятностей и математическая статистика

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Акимов С.С. ЗАДАЧА ИДЕНТИФИКАЦИИ ЗАКОНА РАСПРЕДЕЛЕНИЯ И ПРОБЛЕМЫ ПРИ ЕЁ РЕШЕНИИ // Естественные и математические науки в современном мире: сб. ст. по матер. XXXV междунар. науч.-практ. конф. № 10(34). – Новосибирск: СибАК, 2015.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

 

ЗАДАЧА  ИДЕНТИФИКАЦИИ  ЗАКОНА  РАСПРЕДЕЛЕНИЯ  И  ПРОБЛЕМЫ  ПРИ  ЕЁ  РЕШЕНИИ

Акимов  Сергей  Сергеевич

аспирант  факультета  информационных  технологий, 
ФГБОУ  ВПО  ОГУ, 
РФ,  г.  Оренбург

Е-mailelite17@yandex.ru

 

THE  PROBLEM  OF  DISTRIBUTION  LAW'S  IDENTIFICATION  AND  QUESTIONS  IN  ITS  SOLVING

Sergey  Akimov

postgraduate  of  Faculty  of  Informational  Technology, 
OSU, 
Russia,  Orenburg

 

АННОТАЦИЯ

В  статье  выполнен  обзор  наиболее  распространенной  процедуры  восстановления  плотности  вероятности  по  массиву  данных.  Рассмотрены  основные  методы,  применяемые  в  данной  области,  оценены  их  достоинства  и  недостатки.  Описано  использование  некоторых  характеристик  массивов  случайных  величин,  показаны  проблемы  в  их  использовании.

ABSTRACT

The  article  deals  with  an  overview  of  some  restoration's  methods  of  the  probability  density  from  a  sample  of  the  general  population.  The  advantages  and  disadvantages  of  each  method,  and  a  comparison  of  some  of  the  methods  with  each  other  are  in  the  article.

 

Ключевые  слова:  обзор;  идентификация  закона  распределения,  моменты  случайных  величин.

Keywords:  review;  Identification  of  the  distribution  law;  moments  of  random  variables.

 

На  сегодняшний  день  развитие  цивилизации  невозможно  без  информационного  обеспечения.  Реализуя  огромный  потенциал  роста  техники  и  технологий,  человечество  развивает  и  процесс  информационного  обмена,  как  связующее  звено  между  собой  и  новыми  технологиями.

Информация,  используемая  в  научных  целях  и  в  повседневной  жизни,  может  быть  представлена  в  самом  различном  виде.  Однако  наиболее  широкое  применение  находят  именно  количественные  данные. 

Работа  с  количественными  данными  схожа  с  работой  с  другими  данными  в  области  накопления,  хранения  и  передачи.  Процесс  же  обработки  количественных  данных  значительно  многообразнее,  потому  именно  процессу  обработки  данных  посвящено  более  всего  трудов  отечественных  и  зарубежных  ученых.

Большинство  процессов  реальной  жизни  представляется  случайными  данными.  Исчерпывающей  же  характеристикой  случайных  величин,  как  отмечают  многие  авторы,  является  закон  распределения  вероятности.

При  этом  необходимо  отметить,  что  при  исследовании  реальных  явлений  и  процессов  заранее  закон  распределения  вероятности  практически  всегда  неизвестен.  Отсюда  на  первый  план  выходит  задача  его  идентификации  или  восстановления  по  массиву  исследуемых  данных.

Однако  стоит  учитывать,  что  рассмотренная  выше  задача  некорректно  поставлена  [6].  Некорректность  поставленной  задачи  определяет,  что  если  всякая  входящая  информация  о  вероятном  законе  распределения  случайной  величины  отсутствует,  то  задача  оценки  функции  плотности  распределения  не  может  допускать  состоятельного  решения  [7].

Тем  не  менее,  задача  идентификации  плотности  закона  распределения  вероятности  является  достаточно  актуальной.  Данный  аспект  заставляет  ученых  находить  хотя  бы  приближенное  решение  данной  задачи.  Некорректность  же  привела  к  тому,  что  на  сегодняшний  момент  существует  достаточно  большое  количество  методов  приближенного  восстановления  закона  распределения  вероятности  различной  степени  сложности  и  достоверности.  Принципиальная  же  возможность  восстанавливать  непрерывную  плотность  распределения  вероятности  существует  [4].

Основные  методы  решения  данной  задачи  рассмотрены  в  трудах  различных  авторов  [1].  Наиболее  широко  распространен  следующий  подход  к  решению  данной  задачи: 

  1. вначале  строится  гистограмма  плотности  массива  данных  (алгоритм  построения  гистограммы  встречается  во  многих  трудах  [4]); 
  2. затем  по  гистограмме  исследователь  делает  предварительный  вывод  о  принадлежности  изучаемого  массива  конкретному  закону  распределения  (при  этом  подразумевается,  что  квалификации  исследователя  позволяет  сделать  этот  вывод,  хотя  зачастую  это  не  так); 
  3. далее,  используя  различные  статистические  методы,  исследователь  производит  проверку  своего  предположения,  сравнивая  эмпирическую  плотность  распределения  с  теоретический.

Если  методы  доказывают  равенство  плотностей,  гипотеза  принимается.  В  противном  случае  ученому  приходится  подбирать  иное  распределение.

Как  уже  отмечалось  выше,  в  данном  подходе  необходимо  участие  эксперта  для  предварительной  оценки  гистограммы.  Исключение  из  расчетов  экспертной  оценки  значительно  упростила  бы  систему  расчетов,  и  даже  позволило  бы  ее  автоматизировать.

Данная  задача  относится,  скорее,  к  области  распознавания  образов,  при  этом  существуют  попытки  ее  решения,  на  основе  расчета  ряда  коэффициентов  [3].

Среди  математических  методов  решения  задачи  идентификации  плотности  закона  распределения,  наблюдается  значительное  многообразие.  Однако,  широко  распространено  мнение  о  том,  что  наиболее  оптимальными  являются  методы,  основанные  на  ядерном  оценивании  функции  плотности  (метод  Парзена-Розенблатта,  метод  интегральной  оценки  плотности  вероятности  и  др.)  [8].  При  этом  некоторые  авторы  указывают  на  сложность  реализации  данных  методов  [10].  Более  того,  реализация  подобного  метода  возможна  только  в  рамках  задачи  бинарного  выбора.  Иначе  говоря,  получаемую  ядерную  оценку  можно  сопоставлять  только  с  некой  предполагаемой,  и  получить,  в  результате,  соответствие  или  несоответствие  эмпирического  массива  данных  некоему  теоретическому  распределению.  Отсюда  возникает  проблема  предварительной  оценки  массива  данных,  которое  требует  участие  эксперта-статистика.  В  противном  случае  исследователю  придется  перебирать  все  возможные  варианты  законов  распределения,  с  целью  получения  одного,  наиболее  удовлетворяющего  заданным  условиям.  Учитывая  общую  сложность  реализации  метода  даже  для  одного  сравнения,  получаемый  метод  решения  является  весьма  трудоемким.

Более  простые  методы  основаны  на  моментах  случайных  величин,  поскольку  данные  характеристики,  с  одной  стороны,  достаточно  просто  вычисляются,  а  с  другой  являются,  являются  высокоинформативными.

Как  правило,  среди  моментов  выделяют  третий  и  четвертый,  то  есть  асимметрию  распределения  и  его  эксцесс,  а,  в  некоторых  случаях,  их  сочетание.

Однако,  использование  данных  коэффициентов  невозможно  без  таблиц  критических  значений.  В  ряде  исследований  [11],  как  правило,  критические  значения  рассчитаны  только  для  нормального  закона  распределения:  задача  же  идентификации  в  данном  случае,  сведена  к  частной  задаче  определения  нормальности  распределения.  При  этом,  как  правило,  исследователи  не  дают  никаких  рекомендаций  по  использованию  описываемых  критериев  при  определенных  объемах  массивов  данных  или  при  различных  параметрах  распределения  данных.

Таким  образом,  справедливо  утверждать,  что  метод  идентификации  закона  распределения  путем  определения  основных  моментов  исследуемого  массива  данных  в  достаточно  степени  не  изучен.

Некоторые  исследователи  указывают  на  тяжесть  хвоста  как  возможную  характеристику  идентификации  закона  распределения  [9].  При  этом  нет  четких  рекомендаций,  касающихся  того,  каким  образом  выявлять  параметр,  отвечающий  за  тяжелый  хвост.  Отсюда  отсутствие  рекомендаций  и  по  проблеме  идентификации  закона  распределения. 

При  этом  существуют  попытки  использовать  некоторые  известные  методы  определения  тяжести  хвоста  для  идентификации  закона  распределения  вероятности  [5].  Однако  отмечено,  что  данные  попытки  весьма  ограничены.  Например,  измерение  тяжести  хвоста  в  дискретных  распределениях  сопряжено  с  рядом  трудностей.  Хотя  сама  процедура  различения  дискретных  и  непрерывных  массивов  достаточно  изучена  [2].

Таким  образом,  задача  восстановления  закона  распределения  вероятности,  с  одной  стороны,  является  достаточно  актуальной,  а  с  другой  —  труднореализуемой.  Вместе  с  тем  выделен  целый  ряд  проблем  и  особенностей  в  подходах  к  ее  решению,  работа  над  которыми  поможет  значительно  продвинуться  в  данном  направлении.

 

Список  литературы:

  1. Акимов  С.С.  Методы  решения  задачи  восстановления  плотности  вероятности  по  выборке  из  генеральной  совокупности  //  Естественные  и  математические  науки  в  современном  мире:  сб.  ст.  по  материалам  XIV  междунар.  науч.-практ.  конф.  №  1  (13).  Новосибирск:  Изд.  «СибАК»,  2014.  —  С.  29—35.
  2. Акимов  С.С.  Расчет  вероятности  дискретности  для  массива  данных  /  С.С.  Акимов  //  Научное  обозрение  [Текст]  :  №  6  —  Саратов.  —  2013.  —  С.  78—82. 
  3. Акимов  С.С.,  Шепель  В.Н.  Модернизация  метода  гистограмм  для  выявления  принадлежности  неизвестного  массива  данных  определенному  закону  распределения  вероятностей  [Текст]  /  Шепель  В.Н.,  Акимов  С.С.  Вестник  Оренбургского  Государственного  университета.  —  2014.  —  №  9  (170).  —  С.  179—181.
  4. Акимов  С.С.  Оптимизированный  алгоритм  определения  закона  распределения  вероятности  по  выборке  из  генеральной  совокупности  //  Известия  Самарской  государственной  сельскохозяйственной  академии.  —  2013.  —  №  2.  —  С.  52—56.
  5. Акимов  С.С.,  Шепель  В.Н.  Использование  оценки  Хилла  для  различения  законов  распределения  вероятности  [Текст]  /  Шепель  В.Н.,  Акимов  С.С.  Вестник  Оренбургского  Государственного  университета.  —  2014.  —  №  1  (162).  —  С.  75—78.
  6. Акимов  С.С.,  Шепель  В.Н.  Проблемы  извлечения  знаний.  Университетский  комплекс  как  региональный  центр  образования,  науки  и  культуры  //  Всероссийская  научно-методическая  конференция  (с  международным  участием),  Оренбург,  4—6  февраля  2015.
  7. Богданов  Ю.И.  Метод  максимального  правдоподобия  и  корневая  оценка  плотности  распределения  /  Заводская  лаборатория.  Диагностика  материалов,  —  №  3,  —  2004  г,  —  Т.  70  —  с.  52—61.
  8. Крянев  А.В.,  Лукин  Г.В.  Математические  методы  обработки  неопределенных  данных.  —  М.  ФИЗМАТЛИТ.  —  216  с.  2006.
  9. Маркович  Н.М.  Методы  оценивания  характеристик  тяжело-хвостовых  случайных  величин  по  конечным  выборкам:  Дис.  ...  д-ра  физ.-мат.  наук:  05.13.01:  М.,  2004  —  206  c.
  10. Сызранцев  В.Н.,  Невелев  Я.П.,  Голофаст  С.Л.  Адаптивные  методы  восстановления  функции  плотности  распределения  вероятности:  Известия  ВУЗов.  Машиностроение.  —  2006  г.  —  №  12  —  с.  3—11.
  11. D’Agostino,  Ralph  B.;  Albert  Belanger;  Ralph  B.  D’Agostino,  Jr  (1990).  "A  suggestion  for  using  powerful  and  informative  tests  of  normality".  The  American  Statistician  44  (4):  316–321.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом