На днях вышла новая версия BullshitBench, в которой моделе задают абсолютно идиотские и бессмысленные вопросы, а цель модели - понять, что её спрашивают какой-то бред и попытаться хотя бы поправить пользователя.

У каждой модели есть лейбл (далее описывается примерное поведение, но уместны любые похожие трактовки):

  • Зелёный - модель поняла, что это бред, вопрос проигнорирован / модель попыталась исправить пользователя
  • Жёлтый - модель допустила, что такой вопрос имеет место быть, но отказалась на него отвечать, например, из-за цены ошибки мол “советую пообщаться с экспертами в этой сфере”
  • Красный - модель попалась в ловушку и начала отвечать на несуществующий топик

Из интересного:

  • Модели Anthropic абсолютно доминируют в этой задаче;
  • Модели OpenAI в ~67% случаев готовы отвечать на вопрос (что скорее плохо);
  • В самом низу страницы можно полистать рандомные вопросы / вопросы, с которыми справились все / вопросы, с которыми не справился никто;
  • Можно также посмотреть домены, в которых модели чаще всего ошибались.

Выходит, что модели очень любят говорить по темам, в которых ничего не понимают. Где же мы могли такое видеть…

  • mcherniginMA
    link
    fedilink
    arrow-up
    1
    ·
    3 hours ago

    Удивительно так высоко видеть Qwen 3.5 с его меньше чем 400B параметрами. Он же намного меньше всех окружающих его моделей… Что это, если не дистилляция?)