• 107016, Москва, ул. Неглинная, д. 12, к. В, Банк России
  • 8 800 300-30-00
  • www.cbr.ru
Что вы хотите найти?

Тесты с подменой дат: можем ли мы доверять внутривыборочной точности LLM в макроэкономическом прогнозировании?

Елисеев А., Селезнев С.

Большие языковые модели (Large Language Models, LLM) – это класс моделей генеративного машинного обучения, которые с недавнего времени начали активно применяться в задачах экономического моделирования, в частности для макроэкономического прогнозирования. На практике качество прогнозов LLM зачастую оценивается на исторических данных, которые, как правило, входили в обучающую выборку моделей. Можно ли в этом случае утверждать, что точность прогнозов LLM на истории отражает реальную прогностическую способность этих моделей в будущем? Чтобы ответить на данный вопрос, мы разработали семейство тестов на чувствительность модели к входным данным (промпту), включая два теста с подменой дат (fake date tests). Данные тесты предназначены для выявления двух типов смещений внутривыборочных прогнозов LLM: смещения, связанного с заглядыванием в будущее (lookahead bias), и контекстного смещения (context bias). На практике мы обнаружили, что ни одна из современных LLM, рассматриваемых в данном исследовании, не прошла предложенные тесты. Это сигнализирует о том, что внутривыборочная точность прогнозов данных моделей, вероятно, не является надежным индикатором качества вневыборочного прогнозирования.

Ознакомиться с полным текстом исследования (на английском)

Страница была полезной?
Последнее обновление страницы: 30.03.2026