Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XIV Международной научно-практической конференции «Естественные и математические науки в современном мире» (Россия, г. Новосибирск, 15 января 2014 г.)

Наука: Математика

Секция: Теория вероятностей и математическая статистика

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Акимов С.С. МЕТОДЫ РЕШЕНИЯ ЗАДАЧИ ВОССТАНОВЛЕНИЯ ПЛОТНОСТИ ВЕРОЯТНОСТИ ПО ВЫБОРКЕ ИЗ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ // Естественные и математические науки в современном мире: сб. ст. по матер. XIV междунар. науч.-практ. конф. № 1(13). – Новосибирск: СибАК, 2014.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов
Статья опубликована в рамках:
 
Выходные данные сборника:

 

МЕТОДЫ  РЕШЕНИЯ  ЗАДАЧИ  ВОССТАНОВЛЕНИЯ  ПЛОТНОСТИ  ВЕРОЯТНОСТИ  ПО  ВЫБОРКЕ  ИЗ  ГЕНЕРАЛЬНОЙ  СОВОКУПНОСТИ

Акимов  Сергей  Сергеевич

аспирант  факультета  информационных  технологий,  ФГБОУ  ВПО  ОГУ,  РФ,  г.  Оренбург

E-mailelite17@yandex.ru

 

THE  TASK  SOLUTION’S  METHODS  OF  RECOVERY  OF  PROBABILITY’S  DENSITY  ON  SAMPLE  FROM  GENERAL  SET

Akimov  Sergey  Sergeevich,

postgraduate  of  Faculty  of  Informational  Technology,  OSU,  Russia  Orenburg

 

АННОТАЦИЯ

В  статье  рассматривается  обзор  некоторых  методов  восстановления  плотности  вероятности  по  выборке  из  генеральной  совокупности.  Показываются  достоинства  и  недостатки  каждого  метода,  а  также  приводится  сравнение  некоторых  методов  между  собой.

ABSTRACT

The  review  of  several  task  solution’s  methods  of  recovery  of  probability’s  density  on  sample  from  general  set  is  presented  in  the  article.  The  comparison  of  several  methods  between  each  other  and  advantages  and  disadvantages  of  them  are  showed  in  the  article. 

 

Ключевые  слова:  обзор;  восстановление  плотности.

Keywords:  review,  recovery  of  density.

 

В  практике  статистического  анализа  и  моделирования  точный  вид  закона  распределения  анализируемой  генеральной  совокупности,  как  правило,  бывает  неизвестен;  зачастую,  исследователь  располагает  лишь  выборкой  из  интересующей  его  генеральной  совокупности  [15]. 

При  восстановлении  данных  по  выборке  из  генеральной  совокупности  большинство  исследователи  данной  области  считают  плотность  вероятности  исчерпывающей  характеристикой  для  любого  закона  распределения  вероятности  [13,  15].  Принципиальная  возможность  решать  все  самые  основные  задачи  статистического  анализа  данных  исходит  из  знания  закона  распределения  вероятности  [13].

На  сегодняшний  момент  существует  достаточно  большое  количество  методов  восстановления  плотности  распределения  вероятности.  Кратко  рассмотрим  наиболее  известные  из  них.

Самым  распространенным  методом  восстановления  является  метод  гистограмм.  Данный  метод  рассматривался  многими  отечественными  и  зарубежными  ученными  [13,  15,  16,  17].  Гистограммный  метод  характеризуется  простотой  и  доступностью.  Минусами  данного  метода  считаются  низкая  надежность  при  малых  значениях  выборки,  неустойчивость  к  выбросам  и  др. 

Большинство  известных  методов  восстановления  плотности  рассматривались  такими  авторами  как  Лапко  А.В.,  Ченцов  С.В.,  Фельдман  Л.А.,  Крохов  С.И.  [10].  Рассмотрим  самые  основные  методы  восстановления  плотности  закона  распределения.

1.  Метод  Парзена-Розенблатта  (называемого  иногда  ядерным  методом)  —  самый  распространенный  метод,  после  метода  гистограмм.  В  основе  этого  метода  лежит  предположение,  что  плотность  вероятности  возрастает  в  точках,  в  непосредственной  близости  от  которых  находится  наибольшее  количество  элементов  выборки.  В  методе  Парзена-Розенблатта  используется  сглаженная  эмпирическая  функция  распределения,  а  также  введено  понятие  «ядерная  функция».  Однако  представленный  метод  сопряжен  с  целым  рядом  трудностей.  Как  известно,  что  смещение  и  вариация  оценки  данной  функции  зависят  от  вида  ядра  K(t)  и  значения  параметра  размытости  hN.  И  если  для  выделения  среди  числа  функция  K(t)  наиболее  подходящей  имеется  достаточно  подходящий  критерий  отбора,  выраженный  через  особым  образом  определенный  информационный  функционал,  то  задача  оценивания  оптимальной  величины  hN  является  более  сложной,  нежели  исходная  задача  восстановления  плотности  распределения  [13].  Кроме  того,  существуют  и  другие  проблемы,  связанные  с  использованием  метода  Парзена-Розенблатта,  например  проблема  локальных  сгущений  или  проблема  размерности.  Кроме  Лапко  А.В.  с  соавторами,  данный  метод  описан  и  у  многих  других  авторов  [3,  8,  12].

2.  Метод  интегральной  оценки  плотности  вероятности.  Этот  метод  является  доработкой  метода  Парзена-Розенблатта  для  решения  задач  в  области  автоматической  классификации  или  распознавания  образов,  решая  проблему  сглаживания  скачкообразной  плотности,  не  ухудшая,  при  этом,  аппрроксимационные  свойства  оценки.  В  работе  «Обучающиеся  системы  обработки  информации  и  принятия  решений»  [10]  показано  сравнение  методов  интегральной  оценки  и  Парзена-Розенблатта  и  при  решении  задач  восстановления  плотности,  наиболее  точное  приближение,  при  этом,  давала  интегральная  оценка  плотности.  Некоторые  авторы  считают  данный  метод  синонимом  регуляризованному  методу  гистограмм  [8],  тогда  как  другие  считают,  что  это  два  в  корне  различных  метода  [3]. 

3.  Метод  стохастической  регуляризации.  Данный  метод  состоит  в  том,  что  за  основу  приближенного  решения  обратной  задачи  берутся  значения  некоторого  регуляризирующего  оператора;  при  этом  учитывается  приближенный  характера  входящей  информации.  К  недостаткам  данного  метода  можно  отнести  медленную  сходимость,  а,  зачастую  и  расходимость  в  локальных  минимумах.  Приведенный  метод  также  является  одним  из  весьма  распространенных,  его  реализация  рассматривалась  в  трудах  множества  отечественных  и  зарубежных  исследователей  [9,  12].

4.  Оценки  максимума  правдоподобия  —  метод,  сродни  параметрической  оценке.  Также  как  и  в  параметрической  задаче  вводится  оптимизационная  функция,  стремящаяся  к  максимуму  и  известные  ограничения.  Отличие  от  параметрической  модели  состоит  в  том,  что  в  параметрической  модели  введена  фиксированная  функция,  а  решением  является  вектор  параметров  модели,  равный  данной  функции.

5.  Метод  рекуррентных  ядерных  оценок.  Первенство  в  изучении  рекуррентных  ядерных  оценок  плотности  принадлежит  зарубежным  авторам  [16,  17].  За  основу  взято  предположение  о  том,  что  совокупность  данных  представляет  собой  не  просто  выборку,  а  некоторую  последовательность  пар  с  заданными  координатами.  Это  обеспечивает  основное  преимущество  метода  —  достаточно  простая  возможность  реализации  на  машинном  языке,  относительная  простота  настройки  и  отсутствует  требование  громоздких  перерасчетов  данных  с  каждым  новым  поступлением  входящей  информации,  что  существенно  экономит  как  машинную  память,  так  и  время  расчетов  [5].

Рассмотрим,  также  и  другие  методы  восстановления  плотности.

Ю.Е.  Воскобойников,  А.И.  Седельников  и  Н.Г.  Преображенский  рассматривали  проблему  постановки  и  решения  обратных  задач  в  молекулярной  газовой  динамике  с  использованием  дескриптивного  приближения  сплайнами  [2].  Основные  достоинства  сплайн-оценок  является  относительная  простота  расчетов  и  последующего  анализа,  а  также  обладают  отличными  аппроксимативными  свойствами  [6].  Однако  сплайн-оценки  имею  ряд  недостатков,  прежде  всего,  достаточно  узкая  сфера  их  применения,  поскольку  в  относительно  небольшом  количестве  реальных  физических  процессов  можно  отыскать  соответствие  сплайновой  зависимости.

В  работах  авторов  Чебуркина  А.Н.,  Харченко  С.А.,  Савеловой  Т.И.,  Аганина  К.П.,  Крянева  А.В.,  Лукина  Г.В.  [8.  11,  14]  и  других  рассматривается  такой  метод  восстановления  плотности  вероятности  как  проекционный.  Проекционный  метод  нашел  свое  применение,  в  первую  очередь,  в  задачах  оптической  физики  для  описания  фотоэффекта,  хотя,  в  дальнейшем  он  нашел  свое  применения  в  таких  областях,  как  хемометрика.  Суть  же  проекционного  метода  состоит  в  значительном  снижении  размерности  входных  массивов  данных.  Например,  метод  главных  компонент  представляет  собой  наиболее  известный  и  традиционный  проекционный  метод. 

Проекционные  методы,  как  правило,  характеризуются  высокой  точностью  и  надежностью  (например,  метод  Ченцова);  при  этом  сложны  в  расчетах  и  реализации.

Вапник  В.Н.,  Стефанюк  А.Р.,  Червоненкис  А.Я.,  Михальский  А.И.,  Кощеев  В.А.,  Глазкова  Т.Г.  [1]  и  другие  авторы  рассматривали  метод  структурной  минимизации  риска  для  оценки  плотности  распределения  вероятности.  В  основе  этого  метода  лежит  фундаментальный  постулат  о  равномерной  сходимости  частот  к  соответствующим  по  классу  вероятностям  событий.  Этот  результат  позволил  получить  числовые  оценки  скорости  сходимости,  при  обосновании,  основанном  на  минимизации  эмпирического  риска  (в  результате  чего  метод  и  приобрел  свое  название).  Данный  метод  широко  применяется  в  задачах  восстановления  регрессионных  зависимостей,  распознавания  образов  и  при  решении  множества  прикладных  задач.

Метод  корневой  оценки  —  как  один  из  методов  восстановления  плотности  вероятности  —  рассматривался  в  трудах  уже  названных  авторов  Крянева  А.В.,  Лукина  Г.В.  [8].  Данный  метод  предполагает  использование  особой  итерационной  процедуры  для  обнаружения  коэффициентов  разложения  с  целью  построения  оценки  плотности.  Однако  значительным  недостатком  данного  метода  является  требование  предварительной  нормировки  случайной  величины,  сопряженной  с  рядом  трудностей  [7].

Достаточно  оригинальным  методом  является  метод  Карандеева-Эйсымонта  [4].  В  основе  этого  метода  также  лежит  метод  регуляризации  Тихонова,  однако  он  используется  со  значительными  дополнениями.  Так,  одним  из  важнейших  условий  является  построение  сетки  по  узлам  через  определенную  функцию;  по  полученным  же  узлам  строится  кусочно-линейная  непрерывная  функция.  Далее,  через  теорему  Гливенко-Кантелли,  согласно  методу  регуляризации,  определяется  решение  регуляризирующего  функционала  и  через  производную  Ферше  находится  функция  плотности. 

В  том  же  исследовании  [4]  проводится  сравнение  полученного  метода  с  методом  Парзена-Розенблатта.  Как  показало  исследование,  для  выборок  небольшого  объема  более  точное  решение  дает  описанный  метод  Карандеева-Эйсымонта.  Добавим,  что  для  описанного  метода  оценка  плотности  является  более  устойчивой  вне  зависимости  от  выбора  константы  регуляризации.

Существует  еще  ряд  методов  восстановления  плотности  —  метод  ядерных  оценок  с  пониженным  смещением  или  же  ядерных  оценок  с  переменным  параметром  сглаживания.  Однако  данные  методы  еще  не  в  полной  мере  исследованы  ,  потому  не  станем  на  них  останавливаться.

Подобное  разнообразие  методов  сформировалось  в  результате  того,  что  задача  восстановления  данных  является  актуальной  для  очень  широкого  спектра  прикладных  наук.  Поскольку  обратная  задача  является  одной  из  основных  задач  математической  статистики,  очевидно,  что  все  области  науки,  так  или  иначе  использующие  статистические  методы  в  своих  исследованиях,  рано  или  поздно  сталкиваются  с  обратной  задачей  в  целом,  и  с  задачей  восстановления  плотности  вероятности  в  частности.

Перечисленные  методы,  в  настоящее  время  не  имеют  четкой  классификации;  их  взаимосвязь  между  собой  очень  сильна,  поскольку  при  заданных  параметрах  один  метод  может  быть  абсолютно  идентичным  другому.

В  заключение  необходимо  отметить,  что  универсального  способа  оценки  плотности  не  существует.  Все  методы,  с  учетом  описанной  выше  некорректности  обратной  задачи,  дают  лишь  приближенное  решение.  Различие  методов  обуславливает  различную  точность  полученного  решения,  сложность  вычислений,  универсальность  метода  в  зависимости  от  конкретных  характеристик  и  параметров.

 

Список  литературы:

1.Вапник  В.Н.,  Глазкова  Т.Г.,  Кощеев  В.А.,  Михальский  А.И.,  Червоненкис  А.Я.  Алгоритмы  и  программы  восстановления  зависимостей.  М.:  Наука.  1984.

2.Воскобойников  Ю.Е.,  Преображенский  Н.Г.,  Седельников  А.И.  Математическая  обработка  эксперимента  в  молекулярной  газодинамике.  Новосибирск:  Наука.  СО.  1984.

3.Глаголев  М.В.,  Головацкая  Е.А.,  Шнырев  Н.А.  Эмиссия  парниковых  газов  на  территории  Западной  Сибири  //  Сибирский  экологический  журнал,  —  №  14(2),  —  с.  197—210.  —  2007.

4.Карандеев  Д.А.,  Эйсымонт  И.М.  Проблема  оценивания  плотности  вероятности  по  эмпирическим  данным  /  Управление  большими  системами,  Вып.  1.  М.:  ИПУ  РАН.  —  С.  48—57.  1998.

5.Китаева  А.В.,  Кошкин  Г.М.  Полурекуррентные  ядерные  оценки  базовых  функционалов  по  независимым  наблюдениям  //  Известия  Томского  политехнического  университета.  —  2008.  —  Т.  312.  —  №  2.  —  С.  8—12. 

6.Корнейчук  Н.П.,  Бабенко  В.Ф.,  Лигун  А.А.  Экстремальные  свойства  полиномов  и  сплайнов  /  отв.  ред.  А.И.  Степанец;  ред.  С.Д.  Кошис,  О.Д.  Мельник,  АН  Украины,  Ин-т  математики.  К.:  Наукова  думка,  1992.  —  304  с.

7.Крянев  А.В.  Итерационный  метод  решения  некорректных  задач,  Ж.  вычисл.  матем.  и  матем.  физ.,  14:1  (1974),  —  с.  25—35.

8.Крянев  А.В.,  Лукин  Г.В.  Математические  методы  обработки  неопределенных  данных.  М.  ФИЗМАТЛИТ.  —  216  с.  2006.

9.Кузякина  М.В.  Стохастическая  регуляризация  обратных  задач  в  математических  моделях,  представленных  краевыми  задачами  для  уравнений  параболического  типа  (на  примере  математической  модели  рассеяния  примеси  в  атмосфере):дис.  ...  кандидата  физико-математических  наук:  05.13.18  /  Краснодар,  2012.

10.Лапко  А.В.,  Ченцов  С.В.,  Крохов  С.И.,  Фельдман  Л.А.  Обучающиеся  системы  обработки  информации  и  принятия  решений.  Новосибирск:  Наука.  —  296  с.  1996.

11.Савелова  Т.И.,  Аганин  К.П.  Аналитические  и  численные  оценки  точности  ядерных  и  проекционных  методов  восстановления  плотности  распределения  ориентаций  на  группе  вращений  SO(3):  препринт  004-2007.  М.:  МИФИ,  2007.  —  48  с.

12.Стефанюк  А.Р.  Об  оценивании  отношения  правдоподобия.  —Статистические  проблемы  управления.  Вып.  83,  Вильнюс:  ИМК  АН  ЛитССР,  1986.

13.Сызранцев  В.Н.,  Невелев  Я.П.,  Голофаст  С.Л.  Адаптивные  методы  восстановления  функции  плотности  распределения  вероятности:  Известия  ВУЗов.  Машиностроение.  —  2006  г.  —  №  12  —  с.  3—11.

14.Чебуркин  А.Н.,  Харченко  С.А.  Проекционное  восстановление  распределения  электронов  по  начальным  скоростям  для  источника  в  электрическом  поле  //  Электронный  журнал  «Исследовано  в  России»,  —  №  1—4,  —  с.  892—908,  —  2000.

15.Шепель  В.Н.  Алгоритм  определения  эмпирической  функции  плотности    по  выборке  из  генеральной  совокупности.  Современные  информационные  технологии  в  науке  и  практике.  Материалы  VIII  всероссийской  научно-практической  конференции  (с  международным  участием).  Оренбург:  ИПК  ГОУ  ОГУ,  2009,  —  с.  224—226.

16.Banon  G.  Sur  unestimateur  non  parametrique  de  la  densite  de  probabilite  //  Rev.  Statist.  appl.  —  1976.  —  V.  24.  —  №  4.  —  P.  61—73.

17.Wolverton  C.T.,  Wagner  T.J.  Asymptotically  optimal  discriminant  functions  for  pattern  classification  //  IEEE  Trans.  —  1969.  —  V.  IT_15.  —  №  2.  —  P.  258—266.

Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.