Статья опубликована в рамках: XCIX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 11 марта 2021 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ГРАФЫ ЗНАНИЙ КАК ИНКАПСУЛЯЦИЯ СИСТЕМЫ УБЕЖДЕНИЙ
Когда нас поразила пандемия COVID-19, мировое исследовательское сообщество занялось изучением болезни и делиться своими исследованиями в надежде найти решение. Такой рост результатов исследований поставил перед научными издателями новую задачу: найти достаточно квалифицированных рецензентов, чтобы не отставать от наплыва рукописей.
С начала 2020 года еженедельно отправлялись тысячи рукописей только в этой области исследований. С точки зрения издателя, контролирующего рецензируемые журналы, это огромное количество новых рукописей, которые нужно проверять, редактировать и публиковать. Требование быстрой обработки высококачественных обзоров для ускорения прогресса еще больше усиливало давление выявления хороших кандидатов.
Для начала нам необходимо подчеркнуть, что ключевым термином в «графе знаний» является слово «знание», а не «граф». Следовательно, мы должны сначала определить, что означает слово «знание» для нашего обсуждения. Иерархия данных-информации-знаний-мудрости (DIKW), как она стала известна, стала известна в его обращении к Международному обществу системных исследований в 1989 году. На самом высоком уровне общепринято, что данные цепочку создания стоимости можно резюмировать двумя ключевыми переходами:
1. Переход от «сырых данных» к «информации» и
2. Переход от «информации» к «знаниям».
Теперь давайте посмотрим на эти термины более внимательно. Мы определим «информацию» как данные, которые соответствуют цели в конкретном контексте. Для того чтобы любой набор данных считался «информацией», должна иметь место определенная степень очистки данных, интеграции данных и, возможно, обогащения данных.
Имея это в виду, давайте теперь определим «знание» как «полезную информацию». Важно отметить, что знание обязательно должно быть связано с степенью уверенности, которая выражает силу нашей убежденности в точности информации. Следовательно, как и наши собственные убеждения, он не может быть статичным. Наши убеждения постоянно развиваются и приспосабливаются к новой информации, что, в свою очередь, приводит к корректировке нашей уверенности в наших знаниях.
Создание концептуальных моделей на основе данных о нашем бизнесе будет иметь важное значение для успеха в 21 веке, и система, основанная на знаниях, является отличным способом создания этих концептуальных моделей. Когда у вас есть модель, вы можете интегрировать ее в свою операционную среду, измерять ее переменные, наблюдать за ее динамикой, включать оперативные меры, основанные на различных критериях модели, и постоянно ее уточнять и корректировать. На мой взгляд, в этом и заключается истинная ценность Data Science.
Это то, с чем согласится любой здравомыслящий человек, и многие люди утверждают, что достигли этого. Я думаю, что это далеко не тривиально, даже если вы сузите рамки своей системы, основанной на знаниях, до конкретной области вашего бизнеса. Возьмем, к примеру, граф знаний, о котором я упоминал ранее.
Наш график основан на наборе данных, который состоит из опубликованных научных статей по вирусологии с особым вниманием к коронавирусам, включая SARS, MERS и SAR-CoV-2. Мы использовали метаданные библиографического цитирования для статей, перечисленных LitCovid, CORD-19 и другими источниками. Всего обработано более 120 000 статей.
Наше мышление было довольно простым; если мы сможем показать различных авторов, связанную с ними литературу, их соавторов (соавторов) и некоторую общую характеристику области их исследования, то можно будет легко найти соответствие между поступающей рукописью и соответствующим рецензентом. Следует ли нам учитывать полный текст при создании нашей классификации (если таковая имеется) или использовать только библиографические метаданные? Должны ли мы обеспечивать происхождение наших верований или просто сохранять текущее состояние? Как насчет названий учреждений? На каком уровне мы должны фиксировать аффилированность? Если существует более одной принадлежности, являются ли какие-либо из них временными? Что действительно важно для связи с автором? Я мог бы продолжать и продолжать список вопросов, которые нужно рассмотреть, чтобы прийти к стадии, когда информация в системе достигла уровня уверенности, который позволяет нам сделать ее действенной. Состояние данных, которое вызывает эти вопросы, напрямую связано с информационной энтропией в системе, и, следовательно, эти вопросы умножаются по мере роста размера системы.
Чтобы ответить на вышеуказанные и многие другие вопросы, мы обработали данные через специально созданный конвейер данных, чтобы извлечь соответствующие метаданные и устранить неоднозначность имен авторов, аффилированности авторов и их отношения к публикации с другими авторами. В результате этого процесса было создано около 440 000 уникальных авторов.
Хотя в настоящий момент мы только визуализируем эти знания, мы создали расширяемую и открытую архитектуру, которая позволит использовать эти знания во многих других приложениях. Невозможно не подумать о том, что было бы возможно, если бы наш подход объединял больше данных от наших клиентов, наших партнеров и даже других третьих сторон. Поскольку граф знаний представляет собой систему убеждений, не существует единого графа знаний, который бы управлял ими всеми!
Несомненно, есть общий знаменатель между любыми двумя графами знаний, которые созданы на основе одних и тех же данных или служат в одной и той же области, но большую часть ценности для бизнеса следует искать в их различиях, а не в их сходстве. Мы считаем, что построение системы графа знаний, по сути, означает построение системы убеждений для вашего бизнеса.
Система, которая может понять намерения ваших пользователей в различных обстоятельствах и предоставить знания сотрудникам и конечным пользователям в нужном месте и в нужное время.
Живая, дышащая система, которая постоянно развивается и впитывает новую информацию и тесно связана с «органами» вашего бизнеса, представляя «правду» так, как ее воспринимает ваш бизнес.
Таким образом, данные, контент и службы становятся семантически совместимыми, что позволяет агентам ИИ понимать ваш бизнес и выполнять задачи с большой эффективностью. Время, когда люди просматривали большое количество документов, веб-сайтов и других источников
Контент и ручное извлечение и интерпретация информации в них - не будущее. Фактически, это все больше уходит в прошлое. В настоящее время пользователи просят своих личных помощников выполнять задачи, основанные на знаниях, не углубляясь в процесс, необходимый для выполнения этой задачи.
График знаний – отличный способ инкапсулировать взгляд на мир в контексте вашего бизнеса, то есть вашей системы убеждений.
График знаний будет постоянно обеспечивать рентабельность инвестиций, если он постоянно развивается и включает новую информацию, которая открывает новые возможности использования.
Предприятия, которые сделают это, смогут еще больше расширить охват своих услуг, улучшить качество своей деятельности и предложить новые продукты множеству новых клиентов. Это непростая задача, но может оказаться очень полезным.
Список литературы:
- Граф знаний в Поиске: построение из нескольких источников [Электронный ресурс] – Режим доступа. – URL: https://habr.com/ru/company/mailru/blog/490060/ (дата обращения: 11.02.2021)
- Графы знаний как средства улучшения искусственного интеллекта [Электронный ресурс] – Режим доступа. – URL: https://www.osp.ru/os/2020/03/13055600 (дата обращения: 10.02.2021)
- Система убеждений и ее изменения [Электронный ресурс] – Режим доступа. – URL: https://www.liveinternet.ru/users/plastica/post278319673/ (дата обращения: 10.02.2021)
дипломов
Оставить комментарий