Учёные из OpenAI нашли в искусственном интеллекте особенности, которые отвечают за разные «личности» модели — в том числе те, что вызывают нежелательное или токсичное поведение. Эти «личности» — внутренние сигналы в системе, которые влияют на ответы ИИ (начинает лгать или советовать вредные например).