30 апреля 2026, четверг, 19:30
Поддержите
сайт
Сим сим,
Хартия 97!
Рубрики

OpenAI объяснила, откуда в ChatGPT взялись «гоблины»

2
OpenAI объяснила, откуда в ChatGPT взялись «гоблины»
Фото: OpenAI

Речь идет о системной проблеме.

Проблема с «гоблинами» — странная привычка использовать метафоры с мифическими существами — проявилась во всей линейке моделей OpenAI на базе GPT-5 из-за их преемственности и ошибок в обучении. Также они упоминали гремлинов и других фэнтезийных созданий: троллей, огров, а также животных — енотов и голубей. О системной проблеме, затронувшей целое поколение моделей, начиная с GPT-5.1 и заканчивая актуальной на апрель 2026 года GPT-5.5, компания рассказала на своем сайте в статье под названием «Откуда взялись гоблины».

«В отличие от ошибок в моделях, которые проявляются в виде резкого снижения оценки или скачка показателей обучения и указывают на конкретное изменение, эта ошибка возникала незаметно. Один-единственный «маленький гоблин» в ответе мог быть безобидным, даже очаровательным. Однако с течением времени, по мере развития моделей, эту привычку стало трудно не заметить: гоблины продолжали размножаться, и нам нужно было выяснить, откуда они берутся», — рассказали в OpenAI.

Одним из первых примеров стало поведение OpenAI Codex — специализированной модели, понимающей и генерирующей программный код как автономный агент по разработке ПО. Она способна писать код, исправлять ошибки, создавать pull-запросы и интегрироваться в среды разработки. В феврале 2026 года OpenAI выпустила GPT-5.3-Codex, которая официально объединила архитектуру Codex с основной веткой GPT-5.

Поведение модели формируется множеством «небольших стимулов», одним из таких стало обучение модели под несколько разных личностей. О «гоблинах» чаще других говорила личность, условно называемая «ботаником» или «занудой».

В компании пояснили, что в процессе обучения эту личность неосознанно чересчур поощряли за употребление метафор с мифическими существами. «Оттуда гоблины распространились», — констатировали в OpenAI.

Впервые компания четко заметила закономерность в ноябре, после запуска GPT-5.1, хотя она могла начать проявляться и раньше, отметили в корпорации. Тогда от пользователей начали поступать жалобы, что модель ведет себя слишком фамильярно. Разработчик, ответственный за безопасность, заметил несколько ответов модели с «гоблинами» и «гремлинами» и попросил включить их в проверку. Анализ показал, что использование слова «гоблин» в ChatGPT выросло на 175% после запуска GPT-5.1, а слова «гремлин» — на 52%.

Тогда проблема не была столь масштабной, но с выпуском новых версий модели жалоб стало больше. OpenAI снова провела проверку и заметила рост употребления подобных метафор у всех личностей ChatGPT, особенно у «зануды» — на 3881,4% в GPT-5.4 по сравнению с GPT-5.2. Общаясь с GPT-5.5, один из ведущих специалистов получил от нейросети рисунок гоблина с рогом в ответ на просьбу нарисовать единорога.

На другие личности поведение «зануды» распространилось из-за переноса паттернов: на них они перешли из тренинга, направленного на формирование «зануды».

В марте, после запуска GPT-5.4, в OpenAI отказались от «зануды» как типа личности ChatGPT. Поощрения, исключающие склонность модели обращаться к метафорам с мифическими существами, были исключены, а обучающие данные соответствующим образом отфильтрованы.

Все это снизило вероятность «чрезмерного появления гоблинов или их появления в неподходящих контекстах», но GPT-5.5 начали обучать до того, как была установлена первопричина проблемы.

«Когда мы начали тестирование GPT-5.5 в Codex, сотрудники OpenAI сразу же заметили странную привязанность к гоблинам, и мы добавили инструкцию для разработчиков, как смягчить последствия проблемы», — заключили в корпорации.

Написать комментарий 2

Также следите за аккаунтами Charter97.org в социальных сетях