Статья опубликована в рамках: Научного журнала «Студенческий» № 18(356)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал
РАЗРАБОТКА МОДУЛЯ АВТОМАТИЧЕСКОЙ ГЕНЕРАЦИИ И КАЛИБРОВКИ ТЕСТОВЫХ ЗАДАНИЙ ДЛЯ СИСТЕМЫ УПРАВЛЕНИЯ ОБУЧЕНИЕМ С ПРИМЕНЕНИЕМ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ И ТЕОРИИ ОТКЛИКА НА ЗАДАНИЕ
DEVELOPMENT OF A MODULE FOR AUTOMATED GENERATION AND CALIBRATION OF TEST ITEMS FOR A LEARNING MANAGEMENT SYSTEM USING LARGE LANGUAGE MODELS AND ITEM RESPONSE THEORY
Semenov Kirill Alexandrovich
Student, Department of Automation and Information Technologies, Almetyevsk State Technological University,
Russia, Almetyevsk
Makarevich Roman Dmitrievich
Scientific supervisor, Associate Professor, Faculty of Information Technologies and Programming, Saint Petersburg National Research University of Information Technologies, Mechanics and Optics,
Russia, Saint Petersburg
АННОТАЦИЯ
В работе рассмотрена проблема масштабируемого создания психометрически верифицированных тестовых заданий в LMS. Ручное составление требует 30 минут — 2 часов на задание, LLM генерируют задания оперативно, но без психометрической оценки, а теория отклика на задание (ТОЗ / IRT) обеспечивает строгую калибровку, но требует 200–500 реальных ответов («холодный старт»). Модуль `llm-irt` объединяет ансамблевую LLM-генерацию (MiniMax M2.5 с цепочкой рассуждений), семантическую валидацию по косинусному сходству (порог релевантности 0,65; порог дедупликации 0,90) и 2PL IRT-модель с MAP-EM-алгоритмом. Синтетическая предкалибровка симулирует ответы четырёх виртуальных персон с уровнями компетентности от низкого до высокого для получения первичных IRT-параметров до появления реальных данных. Апробация на 50 заданиях из трёх уроков: 72% прошли валидацию, â = 0,91, r = 0,68 (против r = 0,31 без LLM-симуляции), снижение трудозатрат — 76%, окупаемость — ~20 месяцев.
ABSTRACT
The paper addresses scalable creation of psychometrically verified test items in LMS. Manual authoring requires 30 minutes to 2 hours per item; LLMs generate items rapidly but without statistical quality assessment; IRT provides rigorous calibration but requires 200–500 real student responses (cold-start problem). The `llm-irt` module integrates ensemble LLM generation (MiniMax M2.5 with chain-of-thought), semantic validation via cosine similarity (relevance threshold 0.65; deduplication 0.90), and a 2PL IRT model with MAP-EM optimization. Synthetic pre-calibration simulates responses of four virtual learner personas at ability levels ranging from low to high for immediate IRT parameter estimation. Evaluation on 50 items from three lessons: 72% pass rate, â = 0.91, r = 0.68 (vs. r = 0.31 without LLM simulation), 76% labor reduction, ~20-month payback.
Ключевые слова: системы управления обучением; большие языковые модели; теория отклика на задание; двухпараметрическая логистическая модель; синтетическая предкалибровка; автоматическая генерация заданий; семантическая валидация; EM-алгоритм; адаптивное тестирование; психометрика.
Keywords: learning management system; large language models; item response theory; two-parameter logistic model; synthetic pre-calibration; automatic item generation; semantic validation; EM algorithm; adaptive testing; psychometrics.
Рынок LMS оценивался в 18,7 млрд долл. в 2022 году с прогнозом роста до 47,5 млрд к 2030-му [1, с. 5]; переход к дистанционному обучению резко увеличил спрос на цифровые инструменты оценивания [2, с. 6]. Создание банка из 1 000 заданий требует 500–2 000 человеко-часов [3, с. 6]. Современные LLM (GPT-4, Claude, MiniMax M2.5) ускоряют генерацию [4, 5, с. 6], однако не гарантируют психометрического качества: задание может обладать нулевой или отрицательной дискриминацией [6, 7, с. 6]. Двухпараметрическая IRT-модель описывает вероятность правильного ответа через сигмоидальную зависимость от уровня компетентности студента и параметров трудности и дискриминации задания [9, 10, с. 6], однако требует 200–500 ответов до включения задания в адаптивный тест, что порождает проблему «холодного старта» [11, с. 6]. Цель работы — описание архитектуры и апробации модуля llm-irt, устраняющего этот разрыв методом синтетической предкалибровки.
Автоматическая генерация тестовых заданий (AQG) прошла путь от шаблонных систем на основе синтаксических деревьев [22, с. 7] и статистических ранжировщиков [23, с. 8] до трансформерных LLM. Обзор Курди и соавт. [8, с. 6] (93 работы, 2010–2019) выделил три парадигмы AQG (Answer-Aware, Paragraph-Level, генерация дистракторов); архитектура Вазвани и соавт. [9, с. 6] стала их фундаментом. Браун и соавт. [4, с. 6] показали возможность few-shot генерации без дообучения; Элкинс и соавт. [5, с. 6] подтвердили охват уровней таксономии Блума. Ключевые системные проблемы: «текстовая решаемость» — LLM угадывает ответ по лингвистическим паттернам [6, с. 6] — и смещение распределения трудности при отсутствии обратной связи с реальными данными [7, с. 6]. Применение цепочек рассуждений [12, с. 7] и развитого промпт-инжиниринга [13, с. 7] улучшает структурированность вывода.
Фундамент IRT заложен Рашем [14, с. 7] (1PL) и расширен до 2PL Бирнбаумом [15, с. 7] с дискриминационным параметром в психометрически приемлемом диапазоне от 0,5 до 2,5; Лорд и Новик [16, с. 7] обосновали инвариантность IRT-параметров относительно выборки. EM-алгоритм [17, с. 7] обеспечивает совместную оценку при скрытых переменных; MAP-оценка [18, с. 7] со стандартным нормальным априорным распределением предотвращает вырождение решений; M-шаг оптимизируется методом L-BFGS-B [19, с. 7]. CAT-системы (Duolingo, GMAT) зависят от точности откалиброванных IRT-параметров [20, с. 7]; традиционная полевая калибровка занимает месяцы [21, с. 7]. Парк и соавт. [22, с. 7] показали, что агенты GPT-4 воспроизводят поведение пользователей с корреляцией r ≈ 0,6–0,7, однако сквозного производственного решения для немедленной предкалибровки предложено не было.
Модуль llm-irt реализован как FastAPI-микросервис, интегрированный с LMS lms-main через REST API. Конвейер включает шесть этапов: генерация → семантическая валидация → экспертное ревью → публикация → синтетическая предкалибровка → эмпирическая перекалибровка. На этапе предкалибровки симулируются ответы четырёх персон с уровнями компетентности −1,5, −0,5, +0,5 и +1,5 по шкале компетентности, по пять повторений каждая (20 откликов на задание). При недоступности API применяется IRT-откат: вероятность правильного ответа вычисляется по двухпараметрической логистической функции с дискриминацией 1,0 и трудностью 0,0. Байесовские априоры: параметр дискриминации задаётся логнормальным распределением с медианой 1,0 и масштабом 0,5; параметр трудности — нормальным распределением с центром в нуле и стандартным отклонением 1,5. Апробация выполнена на 50 заданиях, сгенерированных из трёх учебных уроков объёмом 800–900 слов каждый.
По итогам валидации 72% кандидатов — Pass, 10% — Warning, 18% — Fail; â = 0,91, b̂ = −0,18; флаг is_flagged получили 8,3% заданий. Корреляция синтетических предсказаний с эмпирическими параметрами r = 0,68 значимо превышает r = 0,31 IRT-откатного варианта без участия LLM. Снижение трудозатрат составило 76%, срок окупаемости — около 20 месяцев. Соответствие ФЗ № 152-ФЗ обеспечивается анонимизацией идентификаторов и передачей данных по HTTPS.
Анализ публикаций подтверждает разрыв между LLM-генерацией и IRT-калибровкой: существующие платформы решают эти задачи раздельно [23, 24, с. 8], а проблема «холодного старта» остаётся нерешённой [25, с. 8]. Предложенный метод синтетической предкалибровки является первым известным подходом, при котором та же LLM, генерирующая задание, немедленно симулирует ответы виртуальных персон для оценки IRT-параметров. Корреляция r = 0,68 статистически значимо превосходит r = 0,31 варианта без LLM, что подтверждает содержательный вклад языковой модели в предсказание психометрических характеристик. Трёхуровневая семантическая валидация (структурная проверка, релевантность, дедупликация) обеспечивает автоматический контроль качества до экспертного ревью; накопление реальных ответов студентов постепенно уточняет синтетические параметры эмпирически откалиброванными значениями. Интеграция через REST API обеспечивает переносимость решения на другие LMS-платформы. Дальнейшие исследования: валидация на выборках ≥ 200 студентов; расширение до 3PL-модели; задания открытого типа с авторегрессивным скорингом; сравнение альтернативных LLM (GPT-4o, Qwen, Llama 3).
Список литературы:
- MarketsandMarkets. Learning Management System Market — Global Forecast to 2030. MarketsandMarkets Research, 2022.
- UNESCO. Education: From disruption to recovery. UNESCO, 2020.
- Haladyna T.M., Downing S.M., Rodriguez M.C. A review of multiple-choice item-writing guidelines for classroom assessment // Applied Measurement in Education. 2002. Vol. 15. No. 3. Pp. 309–334.
- Brown T., Mann B., Ryder N. et al. Language models are few-shot learners // Advances in Neural Information Processing Systems. 2020. Vol. 33. Pp. 1877–1901.
- Elkins S., Kochmar E., Serban I., Cheung J.C.K. How Teachers Can Use Large Language Models and Bloom's Taxonomy to Create Educational Quizzes // Proceedings of the 16th International Conference on Educational Data Mining. 2023. Pp. 1–9.
- Kortemeyer G. Could an AI Tutor Pass Your Course? Using ChatGPT to Test a Quantum Mechanics Exam // The Physics Teacher. 2023. Vol. 61. No. 3. Pp. 190–192.
- Naskar S.K., Saha S.K., Naskar S. Quality Analysis of Multiple-Choice Questions Generated by Large Language Models // Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. 2024.
- Kurdi G., Leo J., Parsia B., Sattler U., Al-Emari S. A systematic review of automatic question generation for educational purposes // International Journal of Artificial Intelligence in Education. 2020. Vol. 30. Pp. 121–204.
- Vaswani A., Shazeer N., Parmar N. et al. Attention is all you need // Advances in Neural Information Processing Systems. 2017. Vol. 30. Pp. 5998–6008.
- Birnbaum A.L. Some latent trait models and their use in inferring an examinee's ability // Lord F.M., Novick M.R. Statistical Theories of Mental Test Scores. Addison-Wesley, 1968. Pp. 395–479.
- Dempster A.P., Laird N.M., Rubin D.B. Maximum Likelihood from Incomplete Data via the EM Algorithm // Journal of the Royal Statistical Society. Series B. 1977. Vol. 39. No. 1. Pp. 1–38.
- Wei J., Wang X., Schuurmans D. et al. Chain-of-thought prompting elicits reasoning in large language models // Advances in Neural Information Processing Systems. 2022. Vol. 35. Pp. 24824–24837.
- Reynolds L., McDonell K. Prompt programming for large language models: beyond the few-shot paradigm // Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems. 2021.
- Rasch G. Probabilistic models for some intelligence and attainment tests. Danish Institute of Educational Research, Copenhagen, 1960.
- Lord F.M., Novick M.R. Statistical Theories of Mental Test Scores. Addison-Wesley, Reading, MA, 1968.
- Mislevy R.J. Bayes Modal Estimation in Item Response Models // Psychometrika. 1986. Vol. 51. No. 2. Pp. 177–195.
- Zhu C., Byrd R.H., Lu P., Nocedal J. Algorithm 778: L-BFGS-B: Fortran subroutines for large-scale bound-constrained optimization // ACM Transactions on Mathematical Software. 1997. Vol. 23. No. 4. Pp. 550–560.
- Weiner I.B. (Ed.) Handbook of Psychology: Assessment Psychology. Wiley, 2003.
- Van der Linden W.J. Linear Models for Optimal Test Design. Springer, New York, 2005.
- Harwell M.R., Baker F.B. The use of prior distributions in marginalized Bayesian item parameter estimation // Applied Psychological Measurement. 1991. Vol. 15. No. 4. Pp. 375–389.
- Park J.S., O'Brien J.C., Cai C.J. et al. Generative Agents: Interactive Simulacra of Human Behavior // Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. 2023.
- Mitkov R., Ha L.A. Computer-Aided Generation of Multiple-Choice Tests // Proceedings of the HLT-NAACL 2003 Workshop on Building Educational Applications Using Natural Language Processing. 2003. Pp. 17–22.
- Heilman M., Smith N.A. Good Question! Statistical Ranking for Question Generation // Proceedings of the North American Chapter of the Association for Computational Linguistics. 2010. Pp. 609–617.
- Аванесов В.С. Композиция тестовых заданий: учебная книга для преподавателей вузов, учителей школ, аспирантов и студентов педвузов / В.С. Аванесов. — 2-е изд. — М.: АДЕПТ, 1998. — 217 с.
- Челышкова М.Б. Теория и практика конструирования педагогических тестов: учебное пособие / М.Б. Челышкова. — М.: Логос, 2002. — 432 с.

