Статья опубликована в рамках: Научного журнала «Студенческий» № 3(215)
Рубрика журнала: Технические науки
Секция: Технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5
ПЕРСОНАЛИЗИРОВАННЫЕ ПОДБОРКИ В СТРИМИНГОВЫХ СЕРВИСАХ: КАК ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ ПОМОГАЕТ НАМ ОТКРЫВАТЬ НОВОЕ
АННОТАЦИЯ
Искусственный интеллект вошёл в нашу повседневную жизнь, и даже способен составлять подборки на основе наших вкусов и интересов. Так как же это работает?
Ключевые слова: искусственный интеллект, рекомендации, нейросети, большие данные.
Введение
Искусственный интеллект (далее – ИИ) – алгоритм или система, выполняющая задачи, которые требуют интеллектуальных способностей человека. Такими задачами могут быть: распознавание речи, звуков; зрение; понимание текста и контекста; решение различных логических проблем; поиск сходств.
Для чего используется искусственный интеллект прямо сейчас?
ИИ используется практически везде, и помогает нам с повседневными делами, такими как: заказ такси, постройка маршрутка в картах, съёмка фотографий, прослушивание музыки, печать текста, разблокировка смартфона, и многими другими.
К примеру, чтобы найти наилучшее такси именно для вас и именно сейчас учитывается множество критериев: ваш рейтинг (составленный на основе предыдущих отзывов от водителей), рейтинг водителя, текущий спрос на такси, продолжительность и загруженность дороги. Полный список критериев, конечно же, намного больше.
Другой пример: вы хотите послушать что-то новое, но не знаете, что именно. Искусственный интеллект поможет вам и с этой задачей: составит подборку, основываясь на истории прослушанных и любимых песен, музыкантов, жанров, альбомов. Довольно схожий алгоритм работает и в видео-стриминговых сервисах: всё подбирается под именно ваш вкус.
Как ИИ знает, что нравится именно мне?
Для составления наиболее точных подборок используется огромное количество данных, собранных о предоставляемом контенте, а также об истории ваших действий внутри сервиса.
В качестве примера возьмём музыкальный стриминговый сервис «Spotify». Для составления примерного профиля пользователя используются:
- Самые воспроизводимые и соответственно предпочитаемые песни;
- Исполнителей, композиции которых вы слушаете чаще всего;
- Сохранённые песни, альбомы, плейлисты, и исполнителей, на которых вы подписаны;
- Предпочтения по жанру, настроению, стилю и эпохе;
- Предпочтения в отношении популярности песен или их разнообразия;
- Личный демографический и геолокационный профиль (возраст, пол, страна, и т.п.);
- Темпоральная логика (время суток, дата, день недели, т.п.).
Все вышеперечисленные критерии, естественно, дают алгоритму примерное предположение о вкусе и личности пользователя. Но данных только о пользователе, конечно же, недостаточно. Для создания подборок также нужна информация о композициях, анализ данных которых происходит в три этапа:
- Сбор и обработка «сухих» данных о треке: используются метаданные, предоставленные самим исполнителем. Среди них: название трека, исполнители, лейбл, дата выпуска, жанр и поджанр, настроение, стиль, и т.п.
- Анализ аудиосигналов из аудиофайла трека: ИИ модель определяет индивидуальные признаки композиции, такие как: энергичность, настроение и пригодность для танца.
- Анализ и дополнение данных о треке с помощью NLP моделей (Natural Language Processing – обработка естественного языка) и Интернета: модель помогает извлечь культурный контекст трека и дополнить анализ социальным аспектом его восприятия. При анализе используются даже плейлисты, созданные другими пользователями: к примеру, для того, чтобы понять настроение песни. Если трек появляется в плейлистах с названием «грустные песни», то настроение песни будет помечено как «грустное».
Используя огромный объём данных о пользователях и композициях, алгоритм способен сопоставить вкус пользователя и коллекцию контента на платформе, чтобы наконец создать подборку, которая алгоритмически подходит к вкусу того или иного человека.
Рекомендации на основе данных – самый эффективный и простой подход к персонализации опыта каждого пользователя. Но бывают моменты, когда данных об использовании сервисом ещё нет (например, пользователь только что создал аккаунт). Такую ситуацию называют «cold start – холодный старт». В данном случае у сервиса нет (либо недостаточно) данных о вкусе пользователя, и разработчикам платформы приходится придумывать решение. Чаще всего решением является FTUE (First Time User Experience – первый опыт пользователя) с возможностью выбора любимых артистов и жанров. Тогда алгоритм использует ограниченный набор данных и приравнивает его к некому «усреднённому пользователю», которому нравятся те же артисты, что и новому пользователю на платформе, и базирует первые подборки именно на тех критериях. Если же решения «cold start» нет, то у пользователя может сложиться впечатление о том, что платформа пустая, и слушать там нечего.
В итоге: рекомендации основываются на огромных объёмах данных, собранных о вас и других пользователях, а также о контенте, предоставляемом на платформе. Если этих данных нет, то никакой алгоритм не сможет найти схожесть между вашим вкусом и характеристиками контента.
Всегда ли алгоритмы персонализации честны и лояльны?
Конечно же нет. Вся честность и точность алгоритмов упирается в бюджет компании и в нужду дополнительного спонсирования проекта. Многие алгоритмы «подбрасывают» наиболее выгодный для платформы контент повыше в рекомендации для всех пользователей, тем самым ухудшая качество рекомендаций. В последнее время данная проблема стала наиболее заметна в сервисах как:
- «Кинопоиск»: в рекомендациях чаще всего появляются исключительно проспонсированные фильмы и сериалы, либо же «ориджиналсы» сервиса.
- «Spotify»: перемешка песен не случайна, а поднимает треки, которые выгодны тому или иному лейблу на первые места. Это становится наиболее заметно, когда из библиотеки в 3000+ песен при перемешке проигрываются только определённые 50-100.
- «ВК Музыка»: в рекомендациях появляются рекламные треки и альбомы, а не то, что интересно пользователю. Есть сомнения о том, что рекомендации не настоящие, а на 100% состоят лишь из спонсорского контента.
Вывод: рекомендации могут быть подкорректированы вручную для повышения прибыли сервиса и чаще всего это крайне бросается в глаза, особенно если эта коррекция произошла внезапно и качество подборок ухудшилось.
Заключение
Алгоритмы, которые способны подбирать контент под вкус каждого пользователя безусловно перевернули индустрию с ног на голову, и произошло это благодаря созданию моделей-трансформеров (более известны как нейросети). Такие алгоритмы способны помогать нам открывать новое, но также могут и навредить: рекомендации могут быть предвзяты в сторону того, что выгодно для платформы, а не того, что интересно вам.
Список литературы:
- “Inside Spotify’s Recommender System: A Complete Guide to Spotify Recommendation Algorithms” / Dmitry Pastukhov for Music Tomorrow – 09.02.2022. URL: https://www.music-tomorrow.com/blog/how-spotify-recommendation-system-works-a-complete-guide-2022
- “Lessons Learned from Algorithmic Impact Assessments in Practice” / Henriette Cramer & Amar Ashar for Spotify Engineering – 29.09.22. URL: https://engineering.atspotify.com/2022/09/lessons-learned-from-algorithmic-impact-assessments-in-practice/
- “Giving Voice to Silent Data: Designing with Personal Music Listening History” / Jordan Wirfs-Brock, Sarah Mennicken, Jennifer Thom for Spotify Research – 15.05.20. URL: https://research.atspotify.com/2020/05/giving-voice-to-silent-data-designing-with-personal-music-listening-history/
Оставить комментарий