Статья опубликована в рамках: LXIV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 12 апреля 2018 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
КЛАССИФИКАЦИЯ ВАКАНСИЙ С ЦЕЛЬЮ ПОСЛЕДУЮЩЕЙ ОПТИМИЗАЦИИ ПУБЛИКАЦИИ ОБЪЯВЛЕНИЙ
В эпоху современной глобализации ситуация на рынке труда такова, что компании желают видеть на рабочих местах сотрудников с опытом работы и определенным набором знаний. Но такого рода специалисты, как правило, уже трудоустроены в других компаниях и ищут работодателя, способного предложить более выгодные условия труда.
По статистике, заполнение большинства рабочих мест происходит с помощью публикаций объявлений о вакансиях. Успех такого набора зависит от того, как компания преуспела в составлении соответствующего объявления. Важно знать критерии, которые способны заинтересовать потенциального сотрудника, или же, другими словами, ценность предложения для работника.
В данной работе проблема классификации вакансий рассмотрена как задача интеллектуального анализа данных, для решения которой были предложены наиболее подходящие методы предварительной обработки текста публикаций, а также выбран оптимальный алгоритм определения близости публикаций в векторном пространстве.
Основные этапы построения классифицирующей модели
В ходе построения классифицирующей модели были выполнены три нижеприведённых этапа.
Рисунок 1. Этапы построения классифицирующей модели
Этап 1. Предварительная обработка и индексация.
Опубликованные вакансии представляют собой небольшие текстовые документы различной длины. Для того, чтобы использовать эту информацию в качестве обучающей выборки, была произведена токенизация, то есть выделение в тексте слов, чисел, границ предложений и иных токенов (или термов), а также были удалены семантически нейтральные слова такие, как предлоги и союзы. После этого к полученной информации нами была добавлена служебная метаинформация, которая содержит обучающие метки, необходимые для работы классификатора.
Текст документа представляется в виде мультимножества термов [1] и обозначается , где - множество всех документов, присутствующих в выборке. Множество всех термов . Каждому терму ставится в соответствие некоторый вес , характеризующий встречаемость данного терма в тексте . Логическое представление принято обозначать вектором , где каждый - вес терма в документе . [1, c. 106]
В итоге было получено n-мерное пространство векторов, которое принято называть пространством признаком для класса данных . Таким образом каждый документ является точкой в пространстве признаков.
Затем был использован метод IDF (inverse document frequency – обратная частота документа) для взвешивания полученных термов. В этом методе важность терма определяется инверсией частоты, с которой некоторое слово встречается в документах определенного класса . Именно использование инверсии позволяет уменьшить вес часто употребляемых слов в документе, а словам, которые редко встречаются, присвоить больший вес. Данные вычисления производятся в пределах одного класса документов, что гарантирует уникальность значений слов в пределах каждого класса.
,
где - количество документов в классе, - количество документов, в которых встречается терм .
После этого были применены методы уменьшения размерности термов для обеспечения приемлемого времени работы алгоритма. В рамках этой работы были установлены следующие правила, при выполнении которых терм считается неинформативным:
1.Встречаемость терма в выборке меньше некоторого числа .
2.Терм имеет большое математическое ожидание и маленькую дисперсию . Конкретные значения порогов задаются исходя из конкретных условий.
3.Имеет маленький информативный вес.
Этап 2. Построение и обучение классификатора.
После формирования и предварительной обработки тренировочного набора документов следуют выбор и построение классифицирующей модели, архитектурными компонентами которой были выбраны методы Distributed Memory (распределенная память, DM) и Distributed Bag of Words (распределенный мешок слов, DBOW).
- DM прогнозирует слово по известным предшествующим словам и вектору абзаца;
- DBOW прогнозирует случайные группы слов в абзаце на основании вектора абзаца.
Рисунок 2. Схемы методов Distributed Memory и Distributed Bag of Words
Принцип работы этих методов заключается в нахождении связей между контекстами слов согласно предположению, что слова, находящиеся в похожих контекстах, являются семантически близкими. Формально задача представляет собой максимизацию косинусной близости между векторами слов, которые появляются в близких контекстах, и минимизация косинусной близости между векторами слов, которые не появляются рядом друг с другом: , где – слова контекста, – целевое слово, – другие контексты. – близость слов контекста и целевого слова, – близость всех других контекстов и целевого слова.
Решить задачу такой минимизации (маскимизации) можно с помощью обычной нейронной сети прямого распространения, требующей, чтобы входные векторы были фиксированной длины. Однако, если векторные представления предложений образовывать за счет склеивания соответствующих представлений слов, на выходе всегда будут получаться векторы разной длины.
В качестве решения этой проблемы был выбран свёрточный фильтр, идея которого заключается в том, что каждому нейрону подается на вход два (или более) слова, причем для каждого последующего нейрона вход сдвигается на одно слово. Например, первому нейрону на вход подается слово 1 и слово 2, второму – слово 2 и слово 3, и т.д. На выходе имеется предложение, которое в два или в N (количество нейронов входного слоя) раз короче исходного (см. рисунок 3).
Этап 3. Оценка качества работы классификатора и анализ результатов
В итоге была спроектирована и реализована система, которая позволяет классифицировать вакансии с использованием рассмотренных выше подходов. Для оценки качества работы модели была использована F-мера:
,
где - полнота (recall) классификации по классу, то есть отношение количества документов, для которых классификатор правильно определил класс, к общему количеству документов класса, определенному без классификатора; - точность (precision), показывающая отношение количества документов, для которых классификатор правильно определил класс, к количеству документов, которые классификатор отнес к данному классу.
Заключение
Рассмотренные подходы были использованы для проектирования реальной системы классификации вакансий. Python использовался в качестве языка реализации. Методы DM и DBOW при сравнительно низкой вычислительной сложности позволили получить достаточно точные результаты классификации.
Список литературы:
- Агеев М. С. Методы автоматической рубрикации текстов, основанные на машинном обучении знаниях экспертов – Либроком (Editorial URSS), 2004. – C. 106.
дипломов
Оставить комментарий