OpenAI объяснила, откуда в ChatGPT взялись «гоблины»
2- 30.04.2026, 18:10
- 1,218
Речь идет о системной проблеме.
Проблема с «гоблинами» — странная привычка использовать метафоры с мифическими существами — проявилась во всей линейке моделей OpenAI на базе GPT-5 из-за их преемственности и ошибок в обучении. Также они упоминали гремлинов и других фэнтезийных созданий: троллей, огров, а также животных — енотов и голубей. О системной проблеме, затронувшей целое поколение моделей, начиная с GPT-5.1 и заканчивая актуальной на апрель 2026 года GPT-5.5, компания рассказала на своем сайте в статье под названием «Откуда взялись гоблины».
«В отличие от ошибок в моделях, которые проявляются в виде резкого снижения оценки или скачка показателей обучения и указывают на конкретное изменение, эта ошибка возникала незаметно. Один-единственный «маленький гоблин» в ответе мог быть безобидным, даже очаровательным. Однако с течением времени, по мере развития моделей, эту привычку стало трудно не заметить: гоблины продолжали размножаться, и нам нужно было выяснить, откуда они берутся», — рассказали в OpenAI.
Одним из первых примеров стало поведение OpenAI Codex — специализированной модели, понимающей и генерирующей программный код как автономный агент по разработке ПО. Она способна писать код, исправлять ошибки, создавать pull-запросы и интегрироваться в среды разработки. В феврале 2026 года OpenAI выпустила GPT-5.3-Codex, которая официально объединила архитектуру Codex с основной веткой GPT-5.
Поведение модели формируется множеством «небольших стимулов», одним из таких стало обучение модели под несколько разных личностей. О «гоблинах» чаще других говорила личность, условно называемая «ботаником» или «занудой».
В компании пояснили, что в процессе обучения эту личность неосознанно чересчур поощряли за употребление метафор с мифическими существами. «Оттуда гоблины распространились», — констатировали в OpenAI.
Впервые компания четко заметила закономерность в ноябре, после запуска GPT-5.1, хотя она могла начать проявляться и раньше, отметили в корпорации. Тогда от пользователей начали поступать жалобы, что модель ведет себя слишком фамильярно. Разработчик, ответственный за безопасность, заметил несколько ответов модели с «гоблинами» и «гремлинами» и попросил включить их в проверку. Анализ показал, что использование слова «гоблин» в ChatGPT выросло на 175% после запуска GPT-5.1, а слова «гремлин» — на 52%.
Тогда проблема не была столь масштабной, но с выпуском новых версий модели жалоб стало больше. OpenAI снова провела проверку и заметила рост употребления подобных метафор у всех личностей ChatGPT, особенно у «зануды» — на 3881,4% в GPT-5.4 по сравнению с GPT-5.2. Общаясь с GPT-5.5, один из ведущих специалистов получил от нейросети рисунок гоблина с рогом в ответ на просьбу нарисовать единорога.
На другие личности поведение «зануды» распространилось из-за переноса паттернов: на них они перешли из тренинга, направленного на формирование «зануды».
В марте, после запуска GPT-5.4, в OpenAI отказались от «зануды» как типа личности ChatGPT. Поощрения, исключающие склонность модели обращаться к метафорам с мифическими существами, были исключены, а обучающие данные соответствующим образом отфильтрованы.
Все это снизило вероятность «чрезмерного появления гоблинов или их появления в неподходящих контекстах», но GPT-5.5 начали обучать до того, как была установлена первопричина проблемы.
«Когда мы начали тестирование GPT-5.5 в Codex, сотрудники OpenAI сразу же заметили странную привязанность к гоблинам, и мы добавили инструкцию для разработчиков, как смягчить последствия проблемы», — заключили в корпорации.