Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 15(311)

Рубрика журнала: Экономика

Секция: Менеджмент

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7

Библиографическое описание:
Асылханова Т.К. ЭВОЛЮЦИЯ БАЗ ДАННЫХ И ИСПОЛЬЗОВАНИЕ ОБЛАЧНЫХ ТЕХНОЛОГИЙ MAPREDUCE В УПРАВЛЕНИИ ПЕРСОНАЛОМ: ТЕОРЕТИЧЕСКИЕ И ПРАКТИЧЕСКИЕ АСПЕКТЫ // Студенческий: электрон. научн. журн. 2025. № 15(311). URL: https://sibac.info/journal/student/311/369851 (дата обращения: 04.05.2025).

ЭВОЛЮЦИЯ БАЗ ДАННЫХ И ИСПОЛЬЗОВАНИЕ ОБЛАЧНЫХ ТЕХНОЛОГИЙ MAPREDUCE В УПРАВЛЕНИИ ПЕРСОНАЛОМ: ТЕОРЕТИЧЕСКИЕ И ПРАКТИЧЕСКИЕ АСПЕКТЫ

Асылханова Томирис Канатовна

магистрант, кафедра менеджмента, Евразийский Национальный университет имени Л.Н.Гумилёва,

РК, г. Астана

Жансеитова Гульнара Сатыбаевна

научный руководитель,

канд. экон. наук, и.о. доц., Евразийский Национальный университет имени Л.Н.Гумилёва,

РК, г. Астана

EVOLUTION OF DATABASES AND THE USE OF CLOUD TECHNOLOGIES MAPREDUCE IN HUMAN RESOURCE MANAGEMENT: THEORETICAL AND PRACTICAL ASPECTS

 

Tomiris Assylkhanova

master's student, Department of Management, L.N. Gumilyov Eurasian National University,

Republic of Kazakhstan, Astana

Gulnara Zhanseitova

scientific supervisor, Candidate of Economic Sciences, Acting Associate Professor, L.N. Gumilyov Eurasian National University,

Republic of Kazakhstan, Astana

 

АННОТАЦИЯ

В цифровую эпоху упрощения и автоматизации процессов, направленных на повышение экономических показателей, бизнес-процессы внутри организаций оптимизируются, а информация о персонале перемещается из одного отдела в другой и между организациями, постоянно меняя свой формат и форму. Это подчеркивает ценность хранения постоянно циркулирующих данных. Прогресс дошел до интегрированных решений облачного хранения, которые позволили существенно снизить эксплуатационные расходы и решить проблему совместимости на различных платформах. В этой статье рассмотрены практические и теоретические основы вышеупомянутых концепций в контексте управления персоналом.

ABSTRACT

In the digital age of process simplification and automation aimed at improving economic performance, business processes within organizations are being optimized, and personnel information moves from one department to another and between organizations, constantly changing its format and structure. This highlights the importance of storing continuously circulating data. Progress has led to integrated cloud storage solutions, which have significantly reduced operating costs and addressed compatibility issues across various platforms. This article examines the practical and theoretical foundations of the above-mentioned concepts in the context of human resource management.

 

Ключевые слова: большие данные; хранилища данных; управление персоналом; MapReduce; язык структурированных запросов.

Keywords: Big Data; Data Warehouses; Human Resource Management; MapReduce; Structured Query Language (SQL).

 

ВВЕДЕНИЕ

В цифровую эпоху упрощения и автоматизации процессов, направленных на повышение экономических показателей, бизнес-процессы внутри организаций оптимизируются, а информация о персонале перемещается из одного отдела в другой и между организациями, постоянно меняя свой формат и форму. Это подчеркивает ценность хранения постоянно циркулирующих данных. Прогресс дошел до интегрированных решений облачного хранения, которые позволили существенно снизить эксплуатационные расходы и решить проблему совместимости на различных платформах.

Актуальность темы исследования: Данные генерируются с беспрецедентной скоростью с помощью таких устройств, как мобильные телефоны, социальные сети и диагностические датчики, что создает проблемы с хранением, управлением и анализом. Большие данные, определяемые их объемом, разнообразием и скоростью, часто требуют передовых инструментов и методов для обработки и извлечения ценности. Традиционные системы, такие как реляционные базы данных, с трудом справляются с обработкой неструктурированных или полуструктурированных данных, которые доминируют в современных средах данных. В этой статье рассмотрены практические и теоретические основы вышеупомянутых концепций в контексте управления персоналом.

Научная новизна исследования заключается систематизация этапов эволюции баз данных в управлении персоналом, обосновании целесообразности применения облачных технологий MapReduce для обработки больших HR-данных и разработке концептуальной модели их интеграции в HR-аналитику.

ОСНОВНАЯ ЧАСТЬ

Теоретическая часть

Эволюция больших данных сопровождалась растущими опасениями, которые можно проследить еще в 1960-х и 1970-х годах, когда эксперты впервые начали оценивать их потенциал и последствия. В этот период Конгресс США (1961 г.) предостерег от сбора данных без надлежащего анализа. В то же время Кейтс (1969) заметил, что многие географы поддерживают расширение сбора данных, в то время как DPMA (1970) выступает против идеи массовой свалки данных. Миллер (1971) подчеркнул риски, связанные с тем, что управление данными попадет в руки чрезмерно сосредоточенных информационных менеджеров, а Сенат США (1972) указал на неэффективность федеральных систем данных. Тем временем Мерриам (1974) предвидел будущее использование систем хранения больших данных, а Басслер и Джослин (1976) исследовали проблемы управления большими центрами обработки данных. Мюллер (1979) также выразил обеспокоенность по поводу неконтролируемого распространения персональных данных. Эти ранние размышления о больших данных подчеркивают сложности и потенциальные ловушки, которые продолжают формировать дискуссии сегодня. [2, с. 11-12] К отраслям, использующим большие данные, относятся компании, выпускающие кредитные карты, выявляющие мошенничество, операторы мобильной связи, анализирующие модели пользователей, и такие платформы, как LinkedIn, где данные являются основным продуктом. Эти приложения подчеркивают преобразующий потенциал больших данных в бизнесе, правительстве и науке. В настоящее время этот метод использования данных оказывается неоценимым на руководящих должностях.

Поскольку большие данные продолжают развиваться, их ключевые аспекты стали иметь решающее значение для понимания как возможностей, так и проблем. Эти параметры — объем, разнообразие, скорость, достоверность, изменчивость, сложность, ценность и жизнеспособность — представляют собой фундаментальные аспекты, которые организации должны учитывать при управлении и анализе больших наборов данных. Под объемом понимается растущее количество доступных данных, особенно в таких областях, как электронная коммерция, где данные о транзакциях и взаимодействиях постоянно расширяются (Laney 2001: 1). Разнообразие подчеркивает сложность обработки разнообразных и несовместимых форматов данных (Laney 2001: 2), тогда как скорость подчеркивает более быстрое создание и использование данных, особенно при взаимодействии в реальном времени (Laney 2001: 2). Достоверность касается необходимости управлять надежностью и неопределенностью данных (Schroeck et al. 2012: 5), тогда как изменчивость связана с колебаниями потоков данных, которыми организациям приходится управлять, особенно в периоды пиковой нагрузки (Troester 2012: 3). Наконец, сложность возникает из-за необходимости связывать и преобразовывать данные из разных источников, которая возрастает по мере расширения источников данных (Troester 2012: 3). Кроме того, ценность связана с экономической ценностью данных, поскольку ценная информация часто скрыта в обширных наборах данных и требует эффективного извлечения и анализа (Дейкс 2013: 4). Жизнеспособность фокусируется на оценке актуальности данных перед инвестированием в прогнозные модели, гарантируя, что используемые данные соответствуют конкретным бизнес-целям (Бин, 2013). Вместе эти измерения определяют, как большие данные понимаются, управляются и используются в различных областях в наши дни [2, с. 14-15].

Поскольку размеры больших данных продолжают определять подходы организаций к управлению и анализу данных, инструменты и системы, используемые для хранения, обработки и анализа данных, также развиваются, чтобы удовлетворить растущие потребности. Традиционные хранилища данных, такие как электронные таблицы, корпоративные хранилища данных (EDW) и аналитические песочницы, имеют свои уникальные преимущества и ограничения. Электронные таблицы обеспечивают быстрый децентрализованный анализ, но риск несогласованности и потери данных значителен. EDW, хотя и предлагают централизованное и безопасное управление данными для надежной отчетности, часто не обладают гибкостью для более исследовательского анализа. Аналитические песочницы устраняют этот пробел, обеспечивая гибкий, высокопроизводительный анализ в управляемой, безопасной среде, поддерживая обработку в базе данных для более быстрой разработки моделей без нарушения работы основных баз данных.  Однако рост больших данных также таит в себе потенциальные ловушки, как подчеркнули Бойд и Кроуфорд в 2012 году. К ним относятся переопределение знаний посредством больших данных, вводящие в заблуждение заявления об объективности и точности, идея о том, что большие наборы данных всегда лучше, потеря смысла, когда данные вырваны из контекста, этических проблем, связанных с доступностью данных, а также цифрового неравенства, создаваемого ограниченным доступом к большим данным. Эти опасения подчеркивают необходимость тщательного и целенаправленного подхода к управлению данными. Когда мы вступаем в эпоху больших данных, огромные объемы многомерных или неструктурированных данных, которые производятся и хранятся с низкими затратами, создают как возможности, так и проблемы. Этот взрывной рост данных трансформирует такие области, как геномика, анализ социальных сетей и финансы, делая принятие решений на основе данных решающим для отраслей. Однако сложность больших данных порождает такие проблемы, как накопление шума, ложные корреляции и неэффективность вычислений. Традиционные статистические методы часто не справляются с масштабом и размерностью современных наборов данных, требуя новых методов, таких как уменьшение размерности, выбор переменных и усовершенствованные алгоритмы оптимизации, чтобы справиться с этими проблемами. Параллельно эволюция хранилищ данных отражает эти сдвиги. Хотя такие инструменты, как электронные таблицы и корпоративные хранилища данных (EDW), предлагают централизованный или быстрый анализ, они ограничивают гибкость. Однако аналитические песочницы обеспечивают более динамичную и высокопроизводительную среду анализа, позволяя быстрее разрабатывать модели и более адаптируемо исследовать разнообразные данные. Поскольку предприятия все больше полагаются на аналитику больших данных для принятия решений и управления рисками, внедрение передовых статистических методов и масштабируемой инфраструктуры будет иметь важное значение для успеха в эту эпоху, основанную на данных. Чтобы решить эти проблемы, организации должны тщательно выбирать правильные типы репозиториев данных в соответствии со своими потребностями. Хотя централизованные репозитории, такие как хранилища данных, предназначены для структурированного хранения и управления данными, они часто ограничивают сложный анализ. Напротив, аналитические песочницы предлагают более гибкое решение, позволяющее объединять данные из различных источников для гибкого анализа в непроизводственной среде. Эти рабочие пространства помогают снизить риски, связанные с несанкционированной репликацией данных, предоставляя аналитикам большую автономию по сравнению с традиционными системами, контролируемыми ИТ.

Эволюция аналитики больших данных также отражает переход к более динамичным и совершенным системам обработки в которой есть место четкой систематизации как например прозрачное разделение информации о сотрудниках, которой владеет менеджер HR в одной из самых распостраненных форм на сегодняшний день(Рис.1). В данной схеме, ссылающейся на сущности внутри себя множественными связями по типу “оne-to-many”, “many-to-many” и тому подобное сокращают риск дублирования данных поскольку данные могут быть извлечены в более удобной форме для безошибочного анализа, при этом с определенной логикой в запросах языка программирования SQL.  Проекты больших данных обычно включают в себя принятие стратегических решений и сложную обработку, требующую систем, которые отдают приоритет высокой пропускной способности и низкой задержке, например, рекомендации продуктов в реальном времени. Эти системы помогают снизить затраты и повысить производительность, позволяя организациям быстрее реагировать на меняющиеся рыночные условия.

 

Рисунок 1. ERD-диаграмма сущностей в сфере управления персоналом

Примечание: cоздано автором

 

Цели анализа больших данных многогранны и решают, как прогностические, так и научные задачи. Основные цели двоякие: разработать методы, которые точно предсказывают будущие наблюдения, и получить представление о взаимосвязях между особенностями и реакциями для научного понимания. Кроме того, большие размеры выборки, присущие большим данным, ставят две дополнительные цели: понимание гетерогенности и выявление общности среди подгрупп населения [3].

Эти цели отражают потенциал больших данных в: (i) исследовании скрытых структур внутри субпопуляций данных, которые обычно считаются выбросами при меньших размерах выборки; и (ii) выявить ключевые общие черты среди различных субпопуляций, даже среди значительных индивидуальных различий. Эта возможность повышает глубину и широту анализа, предлагая более глубокие знания, которые ранее были недоступны.

Кроме того, предприятия все чаще используют стратегии, основанные на данных, для оптимизации операций, выявления рисков, прогнозирования новых возможностей и соблюдения нормативных требований. Эти потребности отличаются от целей традиционной бизнес-аналитики (BI), которая фокусируется на исторических тенденциях и ограниченном понимании. Напротив, наука о данных смотрит вперед, используя дезагрегированные наборы данных для ответа на вопросы «как» и «почему», используя такие методы, как анализ временных рядов, для лучшего прогнозирования и прогнозирования.

Несмотря на эти достижения, традиционные архитектуры данных по-прежнему сталкиваются с проблемами, такими как ограниченный доступ к ценным данным, зависимость от пакетной обработки и изоляция проектов по науке о данных. Эти проблемы ограничивают возможность выполнять расширенную аналитику и масштабировать решения в соответствии с бизнес-целями. В эпоху больших данных современные экосистемы данных теперь включают в себя разнообразные источники большого объема, такие как геномные данные, данные социальных сетей и данные Интернета вещей, что подтверждает потребность в более гибких и масштабируемых решениях.

Поскольку большие данные продолжают трансформировать отрасли, появляются новые роли и технологии для удовлетворения растущей потребности в расширенной аналитике. Эта эволюция означает переход от жестких традиционных архитектур данных к более совместным, динамичным средам, которые могут справиться со сложностями современных данных. [1, с. 2-25]. Анализ больших данных стал серьезной проблемой в современных приложениях с интенсивным использованием данных. Одним из подходов к решению этой проблемы является платформа MapReduce, которая привлекла значительное внимание благодаря своей способности облегчать разработку масштабируемых параллельных приложений для обработки больших наборов данных на обычных машинных кластерах. MapReduce от Google* и его аналог с открытым исходным кодом Hadoop предоставляют мощные инструменты для создания таких приложений. [5]

MapReduce, представленная в 2004 году учеными Google* Дином и Гемаватом, упрощает обработку и анализ обширных наборов данных, обеспечивая параллельные вычисления в распределенных кластерах. Его основная функциональность включает в себя две ключевые задачи: сопоставление, которое форматирует данные в пары «ключ-значение», и сокращение, которое объединяет эти пары для получения окончательных результатов. MapReduce, широко реализованная в Hadoop, сыграла решающую роль в развитии анализа больших данных.

Несмотря на свою эффективность в плане масштабируемости, отказоустойчивости и экономичности, MapReduce сталкивается с такими ограничениями, как отсутствие обработки в памяти и сложности итеративных вычислений. Следовательно, многие организации переходят на более быстрые платформы, такие как Apache Spark, для определенных приложений.

MapReduce превосходно справляется с такими задачами, как интеграция данных, анализ настроений, табуляция, машинное обучение и анализ текста. Он облегчает масштабируемую параллельную обработку данных петабайтного масштаба, обеспечивая при этом оптимизацию затрат благодаря открытому исходному коду. Его интеграция с экосистемой Hadoop еще больше расширяет его возможности, обеспечивая бесперебойное управление хранилищем и ресурсами с помощью HDFS, YARN и вспомогательных инструментов, таких как Apache Hive и Pig.

Несмотря на то, что MapReduce остается неотъемлемой частью устаревших систем, развивающееся использование MapReduce подчеркивает его основополагающую роль в анализе больших данных, предлагая разработчикам простоту, масштабируемость и надежность для решения разнообразных вычислительных задач [8].

В платформе MapReduce распределенная файловая система (DFS) распределяет данные по нескольким компьютерам, представляя данные в виде пар ключ-значение. Вычисления выполняются с помощью двух определяемых пользователем функций: Map и Reducе. Функция карты применяется параллельно к различным разделам входных данных, генерируя пары ключ-значение. Эти пары затем группируются и объединяются по разным ключам. Наконец, для каждого ключа вызывается функция сокращения, которая обрабатывает связанный список значений и записывает выходные данные в распределенный файл в DFS.

Основная функция в структуре MapReduce выполняется на главной машине, которая может выполнять предварительную обработку данных перед функциями карты и постобработку выходных данных сокращенных функций. В зависимости от приложения функции карты и сокращения могут выполняться один или несколько раз.

Разработка алгоритмов MapReduce для анализа больших данных вызвала значительный исследовательский интерес. В этом руководстве представлена структура MapReduce, основанная на Hadoop, обсуждается, как разрабатывать эффективные алгоритмы MapReduce, а также представлены современные алгоритмы для интеллектуального анализа данных, машинного обучения и задач объединения по подобию [4].

Шаблоны проектирования уже давно упростили разработку программного обеспечения, предоставляя многократно используемые решения распространенных проблем. Эти шаблоны, популяризированные благодаря плодотворной книге «Шаблоны проектирования: элементы объектно-ориентированного программного обеспечения многократного использования» (1994) Гаммы и др., также известной как книга «Банда четырех», предлагают правильный уровень абстракции — достаточно специфичные, чтобы быть практичными, но в то же время общие. достаточно, чтобы адаптироваться к контексту. Они также создают общий словарный запас, что делает общение между разработчиками более эффективным

Аналогичным образом, шаблоны проектирования MapReduce служат основой для решения задач вычисления данных, облегчая передачу знаний в быстро развивающейся области. Они предлагают краткие решения, такие как различие между «соединением на стороне уменьшения» и «соединением, реплицируемым на стороне карты», что устраняет необходимость многократно объяснять сложную механику. Хотя MapReduce — это более новая парадигма, ее шаблоны разбросаны по блогам, веб-сайтам и группам продвинутых разработчиков [5]. Таким образом, шаблоны проектирования MapReduce способствуют эффективному решению задач обработки данных, систематизируя подходы и упрощая передачу знаний. Их применение позволяет не только сократить время разработки, но и улучшить производительность распределенных вычислений. Однако, несмотря на преимущества данной парадигмы, возникают вызовы, связанные с оптимизацией выполнения заданий и интеграцией MapReduce с традиционными методами работы с данными. Одним из решений этих проблем является использование инструментов, направленных на автоматизацию и повышение эффективности преобразования запросов, таких как экономичный транслятор SQL-to-MapReduce (CAT).

Экономичный транслятор SQL-to-MapReduce (CAT) повышает эффективность преобразования SQL-to-MapReduce за счет оптимизации выполнения заданий. Его вклад заключается в следующем:

1. Расширенная корреляция потоков заданий (JFC) и корреляция входных данных (IC). CAT вводит более мягкие условия объединения заданий, что обеспечивает более эффективное объединение и повышение производительности.

2. Две стратегии слияния: CAT реализует методы обхода сверху вниз (TD) и снизу вверх (BU) для слияния заданий, интегрируя оба в свою структуру.

3. Модель оценки затрат. Модель затрат помогает выбрать оптимизированные потоки работ, создаваемые стратегиями TD и BU. В отличие от традиционной оптимизации запросов, модель подчеркивает затраты на ввод-вывод и связь, основные узкие места в задачах MapReduce с интенсивным использованием данных, одновременно упрощая расчет ЦП благодаря единообразию скоростей обработки кластера. CAT объединяет запросы на основе SQL и вычислительную систему Hadoop, автоматизируя создание рабочих процессов и одновременно оптимизируя затраты и производительность. Он определяет корреляции внутри запроса, выводит правила слияния и оценивает объединенные потоки заданий на предмет эффективного выполнения. Этот подход улучшает использование ресурсов и эффективность вычислений по сравнению с существующими трансляторами [10]. Крупные предприятия и карьерные организации обрабатывают огромные объемы данных о человеческих ресурсах (HR), что требует масштабируемых аналитических решений. Например, более 232 миллионов работников в Европе, 392 миллиона в Индии и 144 миллиона в США ежедневно вносят свой вклад в создание сотен терабайт HR-данных. Только в США в 2018 году требовался один миллион новых ИТ-специалистов, а к 2022 году, по оценкам, будет открыто 1,4 миллиона вакансий. HR-аналитика может оптимизировать результаты бизнеса, например, связать качество лидерства со снижением текучести кадров или продемонстрировать окупаемость программ обучения. Такие инструменты, как реляционная HR-аналитика, помогают организациям генерировать стратегические показатели и принимать решения на основе данных. Тем не менее, многим HR-специалистам не хватает навыков или организационного влияния, чтобы в полной мере использовать аналитику, чему часто мешают разрозненные данные и системы оперативной отчетности, ориентированные на соблюдение требований и мониторинг производительности, а не на стратегическое понимание.

Данные, генерируемые людьми и машинами, являются основными источниками крупномасштабных наборов данных по управлению персоналом. Предприятия должны контролировать квалификацию сотрудников для повышения производительности труда, анализировать развитие рабочей силы и обеспечивать обучение для использования технологических достижений. Эффективная аналитика талантов может принести значительную экономическую выгоду, например, ежегодно экономить 260 миллиардов долларов в здравоохранении США за счет интеллектуального анализа данных (Глобальный институт McKinsey).

Продвинутые модели, такие как предлагаемое представление знаний о карьере. далее Сareer Knowledge или Карьерные Знания (CK) и такие методы, как Evolutionary MapReduce K-Means, играют ключевую роль в решении этих проблем и стимулировании инноваций в подборе персонала, аналитике талантов и общих стратегиях управления персоналом. В американских компаниях эволюционная кластеризация MapReduce K-Means (EMR) для обработки крупномасштабных данных о сотрудниках был протестирован на наборе данных CK, содержащий 15 миллионов профилей сотрудников (EP), полученный на основе статистически восстановленного набора реальных данных по кадрам. Каждый профиль основан на модели Career Knowledge Reference (CKR), классифицирующей компетенции сотрудников по 84 измерениям. Многоуровневая архитектура модели CKR позволяет адаптироваться к различным бизнес-стратегиям и секторам.

Карьерные знания (CK) включают в себя навыки, опыт, квалификацию и профессионализм, связанные с определениями должностей. Анализ CK имеет решающее значение для сопоставления компетенций сотрудников с требованиями организации, снижения затрат и повышения производительности труда. Однако спецификации CK сильно различаются в зависимости от сектора и предприятия, что требует универсальной, адаптируемой модели CK для эффективной аналитики талантов [7]. Рынок программного обеспечения для управления персоналом, на котором доминируют такие компании, как Oracle и SAP, продвигает интегрированные пакеты управления талантами, которые оптимизируют процессы управления персоналом и предлагают базовую аналитику. Однако эти системы редко предоставляют расширенные возможности прогнозирования. При внедрении часто предпочтение отдается общим решениям, а не индивидуальным стратегиям, в результате чего организации не могут в полной мере использовать потенциал аналитики. Несмотря на эти ограничения, литература, ориентированная на HR-практиков, продолжает пропагандировать аналитику как преобразующую, часто без существенных доказательств в поддержку таких утверждений.

Функция управления персоналом отстает от других областей управления в плане внедрения аналитики и использования больших данных. Несмотря на заявления представителей отрасли, существует мало свидетельств того, что HR-аналитика становится критически важным стратегическим потенциалом. Многим HR-специалистам не хватает понимания аналитики, а команды аналитиков часто не понимают нюансов HR. Следовательно, дорогостоящие системы HRIS не способны обеспечить стратегическое понимание. Необходим сдвиг, начиная с вопроса о том, как данные HR могут создавать, фиксировать и защищать ценность, переходя к расширенному продольному анализу для информирования практики и разработки значимых показателей. Ученые могли бы внести свой вклад, прояснив стратегическую HR-аналитику, но без повышения квалификации HR рискует потерять стратегическое влияние и нанести вред как организациям, так и сотрудникам [9].

Экспериментальная часть

Управление человеческими ресурсами (HRM) само по себе превратилось в область, управляемую данными, где способность обрабатывать большие и разнообразные наборы данных имеет решающее значение для эффективного развития рабочей силы. Современный HRM фокусируется на сочетании нужных талантов с правильными ролями в нужное время. Этот принцип называется правилом 4P: человек, профессия, должность и период. Такое согласование требует от организаций интегрировать огромные объемы данных из различных источников и использовать масштабируемые алгоритмы для эффективного анализа этой информации. Помимо хранения данных, основная задача заключается в преобразовании необработанных данных в полезную информацию, позволяющую обнаруживать знания и создавать ценность.

1.Обоснование выбора технологии

HRIS обычно управляет данными о нанятых и не нанятых кандидатах, включая историю трудоустройства, навыки, демографические данные, отработанные часы, оплату, показатели производительности и обучение. Современный HRIS объединяет «мягкие» данные о производительности, такие как оценки, жалобы и отзывы сотрудников. По мере того как организации внедряют облачные системы, эти данные все больше консолидируются, что позволяет проводить анализ с использованием внешних источников, таких как геолокация или схемы связи. Однако интеграция структурированных данных HRIS с неструктурированными большими данными остается сложной задачей из-за проблем конфиденциальности и технологических ограничений.

Использование MapReduce может быть эффективным для:

- Массовой обработки резюме и сопоставления с вакансиями.

- Анализа текучести кадров на основе исторических данных.

- Оптимизации расчёта заработной платы и льгот.

2. Методология эксперимента

На данном этапе входные данные из HRIS разбиваются на пары ключ-значение. Это позволяет структурировать информацию и подготовить её к дальнейшей обработке. В качестве примеров можно привести следующие разбиения:

1.(Сотрудник_ID, Количество отработанных часов)

2.(Резюме_ID, Список навыков)

3.(Сотрудник_ID, История изменений заработной платы)

4.(Отдел_ID, Данные об удовлетворённости сотрудников)

Разделение данных по таким принципам позволяет эффективно агрегировать информацию и снижает избыточность вычислений на последующих этапах.

Рисунок 2. Обработка HR-данных с использованием MapReduce в HRIS. Примечание: cоздано автором

 

3.Reduce-фаза

На этом этапе выполняется агрегирование и обработка сгруппированных данных, что позволяет получить полезные аналитические результаты.

Пример: Подсчёт среднего уровня заработных плат в разных отделах и сравнение с отраслевыми стандартами

На этапе "Reduce" выполняется агрегация и обработка данных о заработных платах сотрудников из различных отделов компании. Для этого данные о зарплатах из каждого отдела группируются, и вычисляется средний уровень заработной платы для каждого отдела. Далее, полученные результаты сравниваются с отраслевыми стандартами, которые могут быть предоставлены внешними источниками, такими как отчёты по рынку труда или статистика от профильных ассоциаций.

Процесс:

  • Сбор данных: Собираются данные о заработных платах сотрудников по отделам. Например, зарплаты в отделах маркетинга, IT, бухгалтерии, продаж и HR.
  • Группировка: Данные разделяются на группы по отделам.
  • Агрегация: Для каждой группы вычисляется средняя зарплата.
  • Сравнение с отраслевыми стандартами: Средние значения зарплат в каждом отделе сравниваются с соответствующими отраслевыми стандартами. Это позволяет выявить, где компания может быть ниже или выше в соответствии с конкурентами.
  • Аналитические результаты: Выводятся результаты сравнения, например, если в отделе маркетинга зарплаты ниже отраслевых стандартов, то это может сигнализировать о необходимости повышения зарплаты для привлечения и удержания талантов.

Этот процесс помогает компании понять, насколько её компенсационные практики соответствуют рыночным условиям и может стать основанием для принятия решений по корректировке зарплат.

4.Гипотетические результаты

Хотя в данном эксперименте отсутствуют конкретные числовые данные, можно спрогнозировать следующие эффекты от применения MapReduce в HRIS:

  • Ускорение обработки кадровых данных за счёт параллельных вычислений и распределённой обработки информации.
  • Оптимизация поиска кандидатов за счёт эффективной группировки и фильтрации резюме по навыкам и опыту работы.
  • Повышение точности HR-аналитики, например, в анализе факторов текучести кадров и прогнозировании их влияния на компанию.
  • Снижение нагрузки на HR-отдел благодаря автоматизации рутинных процессов отбора и анализа данных.

5.Ограничения и перспективы

Несмотря на явные преимущества, применение метода MapReduce в HRIS сталкивается с рядом ограничений:

  • Отсутствие реальных данных на текущем этапе не позволяет оценить точность и эффективность метода в реальных условиях.
  • Необходимость интеграции с существующими HR-системами, что может требовать значительных ресурсов.
  • Ограничения в ресурсах: работа с распределёнными системами требует мощных вычислительных мощностей, что может стать преградой для малых и средних предприятий.

В будущем планируется тестирование метода на реальных данных, что позволит не только подтвердить гипотетические выводы, но и выявить потенциальные точки оптимизации алгоритмов обработки кадровых данных.

Рекомендательная часть

Для оптимизации HR-процессов и повышения эффективности работы с персоналом рекомендуется внедрить технологии, подобные MapReduce, в систему управления персоналом (HRIS). Это позволит автоматизировать рутинные задачи, такие как расчёт заработных плат по отделам или анализ текучести кадров, а также ускорить обработку больших объёмов данных. Использование MapReduce откроет возможности для более точного анализа информации, ускоряя процесс принятия решений и улучшая качество рекрутинга, путём фильтрации и группировки резюме по ключевым критериям.

Важным моментом является необходимость интеграции этой технологии с существующими HR-системами, что потребует внимательного подхода и значительных инвестиций в модернизацию инфраструктуры компании. Важно также обучить HR-специалистов современным методам работы с большими данными, чтобы они могли эффективно использовать возможности таких платформ для принятия обоснованных кадровых решений. Инвестиции в обучение сотрудников и развитие необходимых вычислительных мощностей будут играть ключевую роль в успешной реализации проекта.

Кроме того, стоит уделить внимание созданию системы мониторинга и оценки эффективности внедрённых технологий. Регулярный анализ результатов внедрения MapReduce позволит не только подтвердить эффективность работы системы, но и выявить возможные зоны для улучшения, такие как оптимизация расчётов или повышение точности прогнозирования потребностей в кадрах. В дальнейшем, с развитием новых технологий, таких как Apache Spark, процесс обработки данных можно будет ещё больше ускорить, увеличив масштабируемость и точность системы.

Одним из перспективных направлений в будущем станет использование комбинированных аналитических методов, таких как K-Means и другие модели машинного обучения, для более глубокой обработки кадровых данных и повышения персонализированного подхода к каждому сотруднику. Это откроет новые горизонты в управлении талантами, поможет более точно распределять ресурсы и предсказывать текучесть кадров, что в конечном итоге повысит конкурентоспособность компании и её способность адаптироваться к изменениям на рынке труда.

Внедрение таких технологий в систему управления персоналом создаст дополнительные возможности для роста компании, улучшит процессы принятия решений и позволит быстрее реагировать на изменения, происходящие в кадровой сфере и на рынке труда в целом.

ЗАКЛЮЧЕНИЕ

Эволюция больших данных изменила определение управления данными и аналитики, открыв как огромные возможности, так и серьезные проблемы. Чтобы ориентироваться в этом ландшафте, организациям необходимо внедрить передовые статистические методы, масштабируемую инфраструктуру и гибкие экосистемы данных, которые поддерживают разнообразные источники большого объема. Поступая таким образом, они смогут раскрыть весь потенциал больших данных, стимулировать инновации, совершенствовать процесс принятия решений и удовлетворять сложные потребности общества и бизнеса. MapReduce зарекомендовала себя как основополагающая платформа для обработки крупномасштабных наборов данных, предлагающая масштабируемость и надежность благодаря своей модели распределенных вычислений на зарубежной площадке. Хотя в новых платформах, таких как Apache Spark, устранены некоторые из его ограничений, MapReduce продолжает обеспечивать ценность в конкретных случаях использования, особенно при интеграции с инструментами на основе SQL, такими как экономичный транслятор SQL-to-MapReduce (CAT). Оптимизируя выполнение запросов и использование ресурсов, CAT демонстрирует, как возможности MapReduce могут быть расширены для удовлетворения современных требований обработки данных, обеспечивая его актуальность в развивающейся среде анализа больших данных. Включение MapReduce в практику управления персоналом открывает преобразующий потенциал, позволяя анализировать обширные и сложные наборы данных для получения действенной информации. Такие методы, как Evolutionary MapReduce K-Means и модель CKR, демонстрируют перспективность расширенной аналитики в оптимизации распределения талантов, развития рабочей силы и принятия стратегических решений. Однако реализация этого потенциала требует устранения пробелов в аналитических навыках HR-специалистов, улучшения интеграции данных, оснащение компаний достаточно сильными вычислительными мощностями и содействия более глубокому пониманию того, как аналитика может создавать устойчивую ценность как для организаций, так и для сотрудников. Решая эти проблемы, HRM может полностью реализовать свою роль стратегического драйвера в эпоху, основанную на данных.

*(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.)

 

Список литературы:

  1. Образовательные услуги EMC. Наука о данных и аналитика больших данных: обнаружение, анализ, визуализация и представление данных. – 2014.
  2. Шольц Т.М. Большие данные в организациях и роль управления человеческими ресурсами: концептуализация сложных систем, основанная на теории. – 2016.
  3. Фань Ц., Хан Ф., Лю Х. Проблемы анализа больших данных // National Science Review. – 2014. – Т. 1, № 2. – С. 293–314. – DOI: https://doi.org/10.1093/nsr/nwt032
  4. Shim K. Алгоритмы MapReduce для анализа больших данных // Труды Фонда VLDB. – 2012. – Т. 5, № 12. – С. 2016–2017. – DOI: 10.14778/2367502.2367563
  5. Майнер Д., Шук А. Шаблоны проектирования MapReduce: построение эффективных алгоритмов для Hadoop и других систем. – 2012.
  6. Хезр С.Н., Навимипур Н.Дж. MapReduce и его приложения, проблемы и архитектура: всесторонний обзор и направления будущих исследований // Журнал грид-вычислений. – 2017. – Т. 15, № 3. – С. 295–321. – DOI: 10.1007/s10723-017-9408-0
  7. Бохлули М., Хе З. EMR: масштабируемая кластеризация больших данных о персонале с использованием Evolutionary MapReduce // Сопутствующие материалы веб-конференции. – 2021. – DOI: 10.1145/3442442.3453543
  8. Официальный сайт IBM [Электронный ресурс]. – Режим доступа: https://www.ibm.com/topics/mapreduce (дата обращения: 23.04.2025)
  9. Ангрейв Д., Чарлвуд А., Киркпатрик И., Лоуренс М., Стюарт М. HR и аналитика: почему HR не сможет справиться с проблемой больших данных // Журнал управления человеческими ресурсами. – 2016. – Т. 26, № 1. – С. 1–11. – DOI: 10.1111/1748-8583.12090
  10. Ву З., Сун А., Цао Дж., Цзюньчжоу Л., Чжан Л. Эффективный перевод сложного SQL-запроса в рабочий процесс MapReduce в облаке // Транзакции IEEE в облачных вычислениях. – 2017. – P. 1–1. – DOI: 10.1109/tcc.2017.2700842

Оставить комментарий