Поздравляем с Днем студента!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: LI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 30 марта 2017 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Лагарникова А.В. КЛАССИФИКАЦИЯ ПОТРЕБИТЕЛЬСКОГО ПОТЕНЦИАЛА КЛИЕНТА НА ОСНОВЕ ЕГО ПОВЕДЕНЧЕСКИХ ДАННЫХ МЕТОДОМ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LI междунар. студ. науч.-практ. конф. № 3(50). URL: https://sibac.info/archive/technic/3(50).pdf (дата обращения: 24.01.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

КЛАССИФИКАЦИЯ ПОТРЕБИТЕЛЬСКОГО ПОТЕНЦИАЛА КЛИЕНТА НА ОСНОВЕ ЕГО ПОВЕДЕНЧЕСКИХ ДАННЫХ МЕТОДОМ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА

Лагарникова Анастасия Вакилевна

студент, кафедра информационных технологий СамГТУ,

РФ, г. Самара

Забержинский Борислав Эдуардович

научный руководитель,

канд. техн. наук, доцент СамГТУ,

РФ, г. Самара

В наши дни сведения о клиентах становятся все более важным производственным ресурсом. Развитие любого бизнеса взаимосвязано с ростом клиентской базы, которая требует к себе пристального внимания. Знания, накопленные в результате сотрудничества с клиентами не должны просто храниться в памяти компьютера и при правильном подходе позволяют узнавать потребителя «в лицо». Это необходимо для того, чтобы компания могла относить клиента к определенному классу, сегменту или группе. Данное разбиение на классы облегчает работу с потенциальными клиентами компании и позволяет заранее проследить тенденцию того или иного клиента на основе его поведенческих характеристик (по стоимости и количеству приобретенных товаров или услуг, по периодичности покупок). Для решения таких задач современными компаниями используются технологии Data Mining или интеллектуальный анализ данных [1].

Цель работы – разработать модель классификации, которая наиболее точно определяет к какому классу относится клиент, а именно у каких клиентов есть потенциальная деловая значимость, исходя из их поведенческих особенностей и действий. На основе данных в таблице клиента, необходимо определить было ли совершено действие, приводящее к покупке, или нет.

Для решения поставленной абстрактной задачи, а также для построения модели классификации необходимо использовать метод самоорганизующихся Карт Кохонена [4].

Перед построением самоорганизующихся Карт Кохонена, необходимо проанализировать полученную ранее выборку.

Сеть Кохонена имеет всего два слоя: входной и выходной, составленный из радиальных нейронов упорядоченной структуры (выходной слой называют также слоем топологической карты). Нейроны выходного слоя располагаются в узлах двумерной сетки с прямоугольными или шестиугольными ячейками [2, 3]. Количество нейронов в сетке определяет степень детализации результата работы алгоритма, и, в конечном счете, от этого зависит точность обобщающей способности карты. Для построения карт Кохонена необходимо разбиение множества данных на обучающее – 100 % и тестовое – 0 %

Способ начальной инициализации карты определяет, как будут установлены начальные веса нейронов карты. Удачно выбранный способ инициализации может существенно ускорить обучение и привести к получению более качественных результатов. Способ начальной инициализации карты: Случайными значениями так как объем обучающей выборки значительно (в 100 и более) превышает число ячеек карты, т.к. это даст меньшую вероятность попадания в локальный минимум ошибки кластеризации.

Количество эпох, через которые необходимо перемешивать строки: 20;

Скорость обучения в начале выбирается больше, чем в конце, поэтому скорость обучения: в начале – 0,3, в конце – 0, 005;

Радиус в начале должен быть достаточно большой – примерно половина или меньше размера карты (максимальное линейное расстояние от любого нейрона до другого любого нейрона). а в конце – достаточно малым, примерно 1 или меньше. Радиус обучения: в начале – 4, в конце – 0,1;

Если функция соседства Ступенчатая, то «соседями» для нейрона-победителя будут считаться все нейроны, линейное расстояние до которых не больше текущего радиуса обучения. Функция соседства: ступенчатая;

Кластеризация: автоматическая, так как необходимо, чтобы система сама определила количество кластеров.

Уровень значимости: 0,1 % (Рисунок 1)

 

Рисунок 1. Настройка параметров обучения карты Кохонена

 

В итоге получилось 147 эпох, а время обучения: 01.09.00

В процессе обучения модели, система выделила 3 наиболее значимых кластера: 0, 1 и 2. Благодаря такому разделению, уже можно оценить потенциальную значимость клиента в компании.

Если смотреть на карты char_1_REPLACE – char_9_REPLACE, то можно заметить закономерность, в которой значение равное 0 (Обозначенное как пустое или непригодное значение) занимает 3/4 карт, значит, кластеры №0 и №1 из данных карт можно не учитывать. Здесь следует анализировать верхний левый кластер или кластер № 2, в который входят все значения для анализа.

Карта char_10_REPLACE показала другой результат, в котором наблюдается разброс значений 0 и 1 в равном соотношении. При этом значение 1 значимое и входит сразу в 2 кластера: № 0 и № 1, которые следует учитывать при анализе модели.

В карте actitvity_category_REPLACE система выделила 1-й тип покупок, как наиболее значимый из всех (темно-синий), который входит в кластер № 2.

Таким образом, объединяя анализируемые карты, в одно целое получим, что значимыми кластерами будут кластер № 2 (Полностью) и Кластер № 0 (наполовину)

В результате построения получились следующие Карты Кохонена (Рисунок 2):

а) date;

б) char_1_REPLACE – char_10_REPLACE

в) activity_category_replace

г) Матрица расстояний;

д) Кластеры;

Очевидно, что на карте Кластеры, данные относящиеся к красному кластеру говорят о том, что была произведена покупка (activity_category_replace=1), то есть данное действие выполнилось, значит клиенты, относящиеся к кластеру № 2 точно является потенциально значимыми. Клиенты, относящиеся к кластеру № 0 тоже потенциально значимые, но они занимают лишь половину соответствующего кластера.

А клиенты, относящийся к кластеру № 1– потенциально не значимые.

 

Рисунок 2. Карты Кохонена

 

Таким образом, в результате обработки данных методом самоорганизующихся карт Кохонена была произведена следующая классификация потребительского потенциала клиента:

1. Из обучающей выборки было выявлено 22 % (470 003 записи) процента клиентов максимально влияющих на прибыль компании, то есть тех клиентов, чья потенциальная значимость высока и заслуживает внимания, что вполне соответствует маркетинговым и научным исследованиям о процентном соотношении потенциально значимых клиентов к общему числу клиентов (15-25 %).

2. Остальные 78 % процентов клиентов оказались потенциально не значимыми.

Данный результат можно считать удачным и вполне достоверным, так как при кросс-проверке данного обучающего множества с тестовым отклонение составило:

498 687 (Тестовая выборка) - 470 003 (Обучающая выборка) = 28 684 записи.

 

Список литературы:

  1. Большие данные в маркетинге [Электронный ресурс] – Режим доступа: URL: http://lpgenerator.ru/blog/2015/11/17/chto-takoe-big-data-bolshie-dannye-v-marketinge-problemy-algoritmy-metody-analiza (дата обращения: 22.03.17)
  2. Кластеризатор на основе нейронной сети Кохонена [Электронный ресурс] – Режим доступа: URL: http://mechanoid.kiev.ua/neural-net-kohonen-clusterization.html (дата обращения: 23.03.17)
  3. Нейронные сети [Электронный ресурс] – Режим доступа: URL: http://statsoft.ru/home/textbook/modules/stneunet.html (дата обращения: 22.03.17)
  4. Сети и карты Кохонена [Электронный ресурс] – Режим доступа: URL: http://gorbachenko.self-organization.ru/articles/Self-organizing_map.pdf (дата обращения: 25.03.16)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий