Статья опубликована в рамках: XXIX Международной научно-практической конференции «Инновации в науке» (Россия, г. Новосибирск, 29 января 2014 г.)

Наука: Технические науки

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Сибирев И.В. ПРОГРАММА «СЕГМЕНТАЦИЯ И КЛАСТЕРИЗАЦИЯ РЫНКА IT» // Инновации в науке: сб. ст. по матер. XXIX междунар. науч.-практ. конф. № 1(26). – Новосибирск: СибАК, 2014.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов
Статья опубликована в рамках:
 
Выходные данные сборника:

 

ПРОГРАММА  «СЕГМЕНТАЦИЯ  И  КЛАСТЕРИЗАЦИЯ  РЫНКА  IT»

Афанасьева  Татьяна  Васильевна

д-р  техн.  наук,  доцент,  Ульяновский  государственный  технический  университет,  РФ,  г.  Ульяновск

E-mailtv.afanasjeva@gmail.com

Сибирев  Иван  Валерьевич

студент,  Ульяновский  государственный  технический  университет,  РФ,  г.  Ульяновск

E-mail: 

 

THE  PROGRAM  “SEGMENTATION  AND  CLUSTERING  OF  MARKET  IT”

Afanasieva  Tatyana  Vasilevna

doctor  of  technical  Sciences,  associate  Professor,  Ulyanovsk  state  technical  University,  Russia,  Ulyanovsk

Sibirev  Ivan  Valerievich

student,  Ulyanovsk  state  technical  University,  Russia,  Ulyanovsk,


 


АННОТАЦИЯ


В  статье  представлен  программный  продукт  «Кластеризация,  сегментация  IT  рынка»,  который  можно  использовать  для  сегментирования  рынка  IT,  для  обработки  данных  и  их  анализа,  группировки,  распознавания  и  представления  в  удобном  для  пользователя  виде.  Потребителями  программного  продукта  могут  выступить  экономисты,  социологи,  фирмы,  лица,  занимающиеся  производством  и  продажей  в  сфере  IT.


ABSTRACT


The  article  presents  the  software  product  «Clustering,  segmentation  of  the  IT-market».  The  program  can  be  used  for  segmentation  of  market  IT,  for  analysis,  grouping,  recognition  and  presentation  information  in  convenient  form  for  the  user.  The  program  means  for  economists,  sociologists,  firms  and  businessmen  in  the  sector  IT.


 


Ключевые  слова:  сегментация;  кластеризация;  нечеткие  данные;  рынок  IT.


Keywords:  segmentation;  clustering;  fuzzy  data;  the  IT  market.


 


Социально-экономические  системы  в  их  динамическом  развитии  характеризуются  многомерными  данными.  Междисциплинарное  направление  синергетика,  изучающие  поведение  сложных  систем,  в  качестве  одного  из  основных  постулатов  выдвигает  иерархичность  данных,  характеризующих  сложные  системы.  При  анализе  информации  о  сложных  системах  (экономических,  биологических,  технических  и  др.)  необходимы  обработка  и  анализ  огромных  объёмов  разнородных  данных,  важно  упорядочить  их  по  иерархическим  уровням  и  произвести  группировку,  разбиение  множества  исследуемых  объектов  и  признаков  на  однородные  группы  или  кластеры.  Это  позволяет  сделать  кластерный  анализ,  впервые  применённый  в  социологии  Трионом  [9]  в  1939  г.


Встаёт  проблема  автоматизации  процесса  обработки  и  анализа  информации,  необходимости  создания  простого  и  доступного  программного  инструмента  для  группировки  и  распознавания  данных,  произвольно  структурированных,  и  типов  данных.  Остро  возникает  проблема  представления  данных  в  виде  удобном  и  понятном  для  пользователя.  Необходим  программный  код,  который  бы  мог  выполняться  на  различном  HardWare,  без  его  предварительного  переноса  на  «родной  язык»  устройства.  Актуально  использование  методов  кластерного  анализа  для  численных  и  нечетких  данных.


На  сегодняшний  день  актуальным  является  развитие  методов  кластерного  анализа  (см.  [2],  [3],  [4]  и  др.),  среди  которых  метод  полных  связей,  метод  максимального  локального  расстояния,  метод  Ворда,  центроидный  метод  и  др.  Актуально  их  применение  к  решению  экономических  задач  (см.  [1],  [5]  и  др.),  в  частности,  сегментации  рынка,  их  программная  реализация. 


Существует  программное  обеспечение  для  кластерного  анализа  в  узких  предметных  областях,  например,  “ClusterDelta”  позволяет  производить  анализ  данных  на  бирже,  существуют  программы  для  прогноза  конъюнктуры  рынка  и  др. 


Существуют  пакеты  программ,  реализующие  набор  методов  кластерного  анализа  данных  (“STATISTICA  Multivariate  Exploratory  Techniques”,  “MathCad”  и  др.)  В  программном  пакете  “STATISTICA  Multivariate  Exploratory  Techniques”  реализованы  методы  k-средних,  иерархической  кластеризации  и  двухвходового  объединения.  Используются  различные  метрики  расстояний.  Эти  пакеты  рассчитаны  на  использование  профессиональными  математиками  и  в  этом  их  ограничение.  Другое  ограничение  состоит  в  том,  что  они  не  ориентированы  на  решение  задачи  кластеризации  в  условиях  неоднородных  показателей,  при  обработке  нечетких  данных.


На  сегодняшний  день  актуально  сочетание  кластерного  анализа  с  теорией  нечетких  множеств  (см.  [6],  [7]  и  др.),  основы  которой  заложены  в  60-е  годы  американским  математиком  Латфи  Заде.  В  настоящее  время  Японией  и  США  активно  разрабатываются  электронные  системы  с  нечеткими  управляющими  алгоритмами. 


Нами  ведется  разработка  программного  инструмента  для  кластеризации  и  сегментации  данных  рынка  IT.  Используется  программный  код,  который  бы  мог  выполняться  на  различном  HardWare,  без  его  предварительного  переноса  на  «родной  язык»  устройства.  Нами  был  выбран  C#.  Код  на  C#  будет  работать  везде,  где  установлен  «C#  .NET». 


Выполнена  программная  реализация  методов  создания,  сохранения,  загрузки,  обработки  кластеров  (данных);  предусмотрена  возможность  включения  программного  продукта  в  состав  более  сложной  автоматической  или  автоматизированной  системы  для  экономического  анализа.  Текущая  версия  позволяет:  визуализировать  данные  на  экране  в  виде  дерева,  группировать  данные  центроидным  методом  кластерного  анализа,  выводить  на  экран  результаты  анализа  данных  в  виде  таблиц,  графиков  и  диаграмм. 


­В  программном  продукте  используется  авторский  подход  программной  реализации  методов  кластерного  анализа,  позволяющий  получить  результат  кластеризации  в  виде  иерархической  структуры,  по  которой  можно  судить  о  ходе  выполнения  кластеризации.  Сохранение  и  загрузка  данных  происходит  в  формате  XML  файла,  что  позволяет  пользователю  свободно  редактировать  данные  вне  программного  продукта.  Формат  XML  —  прост,  удобен,  нагляден  и  понятен  пользователю.  Предусмотрена  возможность  использования  кластерного  анализа  в  сочетании  с  другими  методами  многомерного  анализа. 


В  текущей  версии  программного  продукта  производится  обработка  однородных  целочисленных  структур  данных  методами  кластерного  анализа.


В  программном  продукте  создан  класс  “Cluster”.  Кластер  состоит  из  центра  кластера  и  списка  подкластеров.  В  XML  файле  кластер  имеет  следующий  синтаксис.


<Cluster  Name="  Предприятие  №  1">


<Center  Count="4"  X0="10"  X1="50"  X2="1000"  X3="3"  />


<StructureCluster  Count="0"  />


</Cluster>


Центр  кластера  —  вектор  целочисленных  значений.  Например, 


 


.


 


<Center  Count="4"  X0="10"  X1="50"  X2="1000"  X3="3"  />


Список  подкластеров  —  это  множество,  элементы  которого  —  кластеры.  Кластер  с  пустым  списком  подкластеров  называют  кластером  единичной  мощности.  В  XML  файле  список  подкластеров  имеет  следующий  синтаксис.


<StructureCluster  Count="12">


  <Cluster  Name="  Предприятие  №  1">


  <Center  Count="4"X0="10"X1="50"  X2="1000"  X3="3"  />


  <StructureCluster  Count="0"  />


  </Cluster>


<Cluster  Name="  Предприятие  №  2">


  …


</StructureCluster>


В  программном  продукте  данные  хранятся  в  виде  экземпляра  класса  “Cluster”,  который  имеет  иерархическую  структуру  и  рекурсивные  методы  обработки.  Данные  в  классе  “Cluster”  структурированы  и  состоят  из  «кластера-оболочки»  и  «рабочей  зоны».


Таблица  1. 

Схема  преобразования  данных

Загрузка


Обработка


Сохранение


Визуализация


XML  ФАЙЛ  Cluster


Cluster  Cluster


Cluster
XML  ФАЙЛ


Cluster  TreeNode


 


После  загрузки  из  файла,  перед  обработкой  данных  рабочая  зона  имеет  вид  списка  подкластеров  единичной  мощности.  После  обработки  данных  рабочая  зона  имеет  вид  списка  подкластеров  разных  мощностей.


В  программном  продукте  реализованы  метрики: 


 


;;,


 


где  .


Зададим  расстояние  между  кластерами  как  расстояние  между  их  центрами. 


В  программном  продукте  реализован  центроидный  метод  кластерного  анализа,  в  котором  расстояние  между  двумя  кластерами  определяется  как  евклидово  расстояние  между  центрами  этих  кластеров: 


 


.


 


Кластеризация  идет  поэтапно.  На  каждом  шагу  заменяют  два  кластера  А  и  В,  расстояние  между  которыми  наименьшее,  кластером  С,  для  которого  A  и  B  —  подкластеры.  Данный  метод  обработки  реализован  рекурсивно.  Задание  числа  кластеров  на  выходе  —  критерий  остановки  метода.


Пример.  Дан  XML  файл.


<?xml  version="1.0"  encoding="utf-16"?>


<Body>


  <Cluster  Name="NoName">


  <Center  Count="0"  />


  <StructureCluster  Count="12">


  <Cluster  Name="  Предприятие  №  1">


  <Center  Count="4"  X0="10"  X1="50"  X2="1000"  X3="3"  />


  <StructureCluster  Count="0"  />


  </Cluster>


  <Cluster  Name="  Предприятие  №  2">


  …


  </StructureCluster>


  </Cluster>


</Body>


Исходные  данные  обработаем  центроидным  методом.


На  рисунке  1  представлена  визуализация  данных  до  обработки  и  после  обработки.


 

Рисунок  1.  Визуализация  данных  до  и  после  обработки


 


Данные,  сгруппированные  центроидным  методом,  сохранены  в  XML  файл.


Программный  продукт  может  быть  интегрирован  в  состав  более  сложной  автоматической  или  автоматизированной  вычислительной  системы  (автоматической  системы  управления,  прогнозирования  и  др.),  размеры  которой  могут  быть  в  пределах  одной  машины,  локальной,  глобальной  сети,  с  оповещением  через  существующие  средства  связи  (sms,  Email  и  др.).


Ведется  разработка  следующей  версии  программного  продукта  «Кластеризация,  сегментация  IT  рынка»,  которую  можно  будет  использовать  для  сегментирования  рынка  IT,  для  обработки  экономических  данных  и  их  анализа,  группировки,  распознавания  и  представления  в  удобном  для  пользователя  виде.  Для  этого  будут  применены  экономические  модели  сегментации  рынка  (Уинда  и  Кардозы  и  др.),  произведен  анализ  объектов  IT  рынка. 


Программное  обеспечение  предполагается  использовать  для  сегментации  ИТ-предприятий  Ульяновской  области  по  следующим  параметрам:  объем  реализации,  прирост  объема  реализации,  количество  сотрудников,  возраст  предприятия,  количество  клиентов,  доля  объема  продукции  для  зарубежных  клиентов,  средний  возраст  сотрудников  и  др.  Эти  данные  получены  в  рамках  исследования  2013  года  [8]. 


Программное  обеспечение  будет  адаптировано  для  экономической  терминологии  «Кластеризация,  сегментация  IT  рынка».  Наряду  с  обработкой  числовых  данных  станет  возможной  обработка  нечетких  данных.


Потребителями  данного  программного  продукта  могут  выступить  экономисты,  социологи,  фирмы,  лица,  занимающиеся  производством  и  продажей  в  сфере  IT,  которым  полезно  сегментирование  рынка  товаров  и  услуг,  структурирование  рынка,  основанное  на  неоднородности  и  нечеткости  показателей  и  критериев.  Такой  анализ  необходим  для  дифференцированного  маркетинга. 


Программный  продукт  был  представлен  на  конкурсе  «УМНИК-2013». 


 


Список  литературы:


1.            Болч  Б.  Многомерные  статистические  методы  для  экономики  /  Б.  Болч,  К.Дж.  Хуань.  Пер.  с  англ.  М.:  Статистика,  1979.  —  317  с.


2.            Дюран  Б.  Кластерный  анализ  /  Б.  Дюран,  П.  Оделл.  М.:  Статистика,  1977.  —  128  с. 


3.            Жамбю  М.  Иерархический  кластер-анализ  и  соответствия.  Пер.  с  фр.  /  М.  Жамбю.  М.:  Финансы  и  статистика,  1988.  —  342  с.


4.            Классификация  и  кластер.  /Под  ред.  Дж.  Райзина.  М.:  Мир,  1980,  —  390  с. 


5.            Сошникова  Л.А.,  Тамашевич  В.Н.,  Уебе  Г.,  Шефер  М.  Многомерный  статистический  анализ  в  экономике  /  Л.А.  Сошникова,  В.Н.  Тамашевич,  Г.  Уебе,  М.  Шефер.  М.:  ЮНИТИ-ДАНА,  1999.  —  598  с.


6.            Ярушкина  Н.Г.  Основы  теории  нечетких  и  гибридных  систем.  Учебное  пособие  /  Н.Г.  Ярушкина.  СПБ.:  Финансы  и  статистика,  2004.  —  320  c.


7.            Ярушкина  Н.  Г.  Интеллектуальный  анализ  временных  рядов  /  Н.Г.  Ярушкина,  Т.В.  Афанасьева.  Ульяновск:  УлГТУ,  2010.  —  299  с.


8.            Ярушкина  Н.Г.  Исследование  ИТ-кластера  Ульяновской  области  /  Н.Г.  Ярушкина,  Т.В.  Афанасьева,  О.В.  Шиняева  и  др.,  отв.  ред.  Т.В.  Афанасьева.  Ульяновск  :  УлГТУ,  2013.  —  137  с.


9.            Tryon  R.C.  Cluster  Analysis.  New  York:  McGraw-Hill.  1939.

Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий