Тесты с подменой дат: можем ли мы доверять внутривыборочной точности LLM в макроэкономическом прогнозировании?
Елисеев А., Селезнев С.
Большие языковые модели (Large Language Models, LLM) – это класс моделей генеративного машинного обучения, которые с недавнего времени начали активно применяться в задачах экономического моделирования, в частности для макроэкономического прогнозирования. На практике качество прогнозов LLM зачастую оценивается на исторических данных, которые, как правило, входили в обучающую выборку моделей. Можно ли в этом случае утверждать, что точность прогнозов LLM на истории отражает реальную прогностическую способность этих моделей в будущем? Чтобы ответить на данный вопрос, мы разработали семейство тестов на чувствительность модели к входным данным (промпту), включая два теста с подменой дат (fake date tests). Данные тесты предназначены для выявления двух типов смещений внутривыборочных прогнозов LLM: смещения, связанного с заглядыванием в будущее (lookahead bias), и контекстного смещения (context bias). На практике мы обнаружили, что ни одна из современных LLM, рассматриваемых в данном исследовании, не прошла предложенные тесты. Это сигнализирует о том, что внутривыборочная точность прогнозов данных моделей, вероятно, не является надежным индикатором качества вневыборочного прогнозирования.