Модель вероятности дефолта с использованием транзакционных данных российских компаний
Шевелев А., Бузанов Г.
Цель данного исследования — проверить полезность транзакционных данных платежной системы Банка Р РѕСЃСЃРёРё для прогнозирования вероятности дефолта СЂРѕСЃСЃРёР№СЃРєРёС… компаний. Для достижения этой цели РјС‹ строим модели вероятности дефолта СЃ использованием методов машинного обучения РЅР° РѕСЃРЅРѕРІРµ данных РіРѕРґРѕРІРѕР№ бухгалтерской отчетности РїРѕ каждой отраслевой РіСЂСѓРїРїРµ. Затем РІ модели РјС‹ добавляем признаки, созданные РЅР° РѕСЃРЅРѕРІРµ транзакционных данных, что улучшает качество РїСЂРѕРіРЅРѕР·Р° согласно метрике ROC AUC.
Кроме того, мы обучаем модели вероятности дефолта для каждой отраслевой группы с использованием алгоритма случайного леса (Random Forest) только на основе данных платежной системы Банка России. Качество такого прогноза в среднем несколько ниже согласно метрике ROC AUC, но эти оценки могут быть получены по крайней мере на три месяца раньше, чем оценки на основе данных годовой бухгалтерской отчетности.
Наши результаты подтверждают полезность транзакционных данных платежной системы Банка России для качества прогнозирования вероятности дефолта российских компаний. Кроме того, оценка важности признаков методом случайного леса показывает, что основными источниками дополнительной информации являются налоги на заработную плату и социальные выплаты.
Ознакомиться с полным текстом исследования