缩略图

基于TGFN模型的个人信贷违约预测

作者

楼谢晋

上海大学,上海市,201800

摘要:

传统的信贷评估方法在面对日益复杂的数据环境时逐渐暴露出局限性,机器学习技术的应用成为提高预测精度的关键。为了应付这些问题,提出了一种基于图注意力网络变体模块(GATv2)的信贷违约预测模型,通过结合借款人历史和近期贷款数据及个人信息,模型能够有效捕捉复杂的数据关系,提高特征处理能力。实验结果表明,该模型在精度上优于传统模型。为金融机构的风控管理提供了创新性的解决方案,并为未来机器学习在金融科技中的应用提供了有益参考。

关键词:信贷违约预测;机器学习

引言

随着中国经济的持续发展和技术创新,个人信贷业务已成为银行零售业务的核心,推动了经济增长。近年来,随着消费结构升级和居民消费方式转型,特别是在数字经济的推动下,个人信贷需求显著增长,信贷市场进一步扩展。根据国家统计局数据,消费已成为推动GDP增长的主要因素,并将在未来几年持续。特别是在“十四五”规划中,促进消费、扩大内需以及支持消费金融的发展,旨在解决中低收入群体的金融服务难题。然而,信贷业务的扩展也带来了信贷违约风险的上升,如何有效预测和管理这些风险已成为金融行业的重大挑战。

传统的信贷评估方法,如人工审核和基于统计的信用评分模型,虽然在一定程度上有助于风控,但在面对庞大的数据和复杂的信贷环境时,预测精度较为有限,尤其在大数据环境下的适应性较差。机器学习技术凭借强大的数据挖掘和模式识别能力,广泛应用于信贷违约预测,但复杂的深度学习和集成学习模型在实际应用中面临计算复杂度和大规模数据处理的挑战。

因此,本文提出了一种基于图神经网络的信贷违约预测模型,结合机器学习的优势,旨在为金融机构提供一种精准、高效的预测工具。通过引入先进算法和技术,所提模型能够提升预测精度,帮助金融机构更好地评估风险,优化风控管理。

1.相关原理及技术

1.1 图结构

图结构是由节点和边组成的一个数据结构,其中节点代表对象,边则代表节点之间的关系。在信贷违约预测等应用中,图结构可以用于表示借款人之间的相互关系、借款人与金融产品之间的关系等。本文利用多种类型的数据,包括近期的贷款信息、历史贷款记录以及持卡人的个人财务数据来挖掘并提取持卡人之间的相似性,并据此构建多个图结构。

1.2 Ahmad&Dey方法

Ahmad & Dey 方法是一种基于集成学习和数据聚合技术,用于解决多种数据分析的问题,其核心思想是通过不同算法的组合,使得预测模型的表现更加稳健和准确。

虽然混淆矩阵提供了一个详细的分类结果对比,但它本身并不能直接告诉我们模型的整体性能或者在不同分类任务中的表现,尤其在类别不平衡的情况下。因此在分析模型表现时会更加依赖以下几个指标:

精确率(Precision)=TP/(TP+FP)

召回率(Recall)=TP/(TP+FN)

F1-分数(F1-Score)=(Precision×Recall)/ (Precision+Recall)

准确率(Accuracy)=(TP+TN)/(TP+TN+FP+FN)

AUC值(Area Under the Curve)=Trapezoid([0,FPR,1],[0,TPR,1])

1.6总结

本文结合了图结构、Ahmad & Dey方法以及多层次数据融合对信贷违约识别进行预测。整体模型结构如图1所示。

2.实验数据分析

2.1数据获取

本研究使用的数据集来自Kaggle平台上Home Credit提供的公开数据集,涵盖了持卡人的近期贷款数据、历史贷款数据和申请人相关数据,研究选择了数据集中较为完整且具有代表性的数据,包含98,410名持卡人的样本,其中28,130人被标记为违约风险,选取了43个与预测目标相关的变量。通过这些数据,本研究为信贷风险评估提供了有价值的分析基础。

2.2数据预处理

在数据预处理阶段,首先剔除缺失比例超过40%和单一值比例超过95%的特征。对于缺失比例低于2%的记录,使用热卡填充法(Hot-Deck Imputation)进行补全;缺失比例在2%至15%之间的记录,根据特征类型使用均值填充(数值型)或众数填充(类别型);对于缺失比例大于15%的记录直接删除。在处理数据集中的非平衡问题时,采用了聚类欠采样与ENN(Edited Nearest Neighbors)欠采样相结合的方法[3]。这一方法有效减小了数据集规模,提高了模型对少数类样本的识别能力。

数据集被划分为训练集和测试集,采用7:3的比例,其中70%的数据用于训练,30%用于测试。为确保评估结果的公正性,每个模型使用相同的划分方式,最大程度地消除数据划分的随机误差。

2.3实证检验

本研究对比了多种分类器,包括融合模型TGFN的实验结果。结果显示,TGFN模型在精确率(0.7384)、召回率(0.6386)、F1-分数(0.6849)、准确率(0.8320)和AUC值(0.8641)等关键指标上均优于逻辑回归和XGBoost模型。与逻辑回归相比,TGFN的AUC值提升了19.85%;与XGBoost相比,提升了5.48%。这表明TGFN在捕捉数据中的复杂关系方面具有显著优势,尤其适用于信贷数据的建模。

结束语

本研究提出了一种基于图注意力网络变体(GATv2)的信贷违约预测模型,通过整合借款人历史贷款、近期贷款数据及个人信息,成功提高了预测精度。通过与传统模型如逻辑回归和XGBoost的对比,TGFN模型在多个关键性能指标上均展现出了显著优势,表明其能够更有效地捕捉数据中的复杂关系。

尽管TGFN模型在预测能力上表现优异,但其作为深度学习方法的“黑盒”特性仍是一个挑战。在未来的研究中,提升模型的可解释性,将是进一步推动其在信贷风控领域应用的关键,使金融机构在实际应用中更加信任并有效地利用这一模型,从而推动金融科技在信贷风险管理中的创新应用。

参考文献:

[1]Brody S, Alon U, Yahav E. How attentive are graph attention networks? [J]. arXiv preprint arXiv:2105.14491, 2021.

[2]Lee J W, Lee W K, Sohn S Y. Graph convolutional network-based credit default prediction utilizing three types of virtual distances among borrowers[J]. Expert Systems with Applications, 2021, 168: 114411.

[3]向鸿鑫, 杨云. 不平衡数据挖掘方法综述[J]. 计算机工程与应用, 2019, 55(4): 1-16.

作者简介:楼谢晋(1999—),男,汉族,浙江安吉人,硕士研究生在读,研究方向:金融学,单位:上海大学。