基于机器学习的金融风险控制模型与优化策略研究
李柏村 伍燕飞 顾琳 马婧 马蓉
宁夏大学新华学院 宁夏银川 750021
摘要:本文聚焦于经济发展背景下金融信贷风险控制问题,利用阿里天池数据库中的真实数据,通过XGBoost算法构建了信贷违约预测模型,并与LightGBM模型进行了对比分析。研究挑选了债务收入比、循环额度利用率及借款人信用额度总数等关键因素,结合主成分分析整合入XGBoost模型,评估借款人的信用风险。结果显示,XGBoost模型在处理大规模数据集时表现出色,具备高预测精度和强鲁棒性,尤其适合处理金融领域数据不平衡问题。然而,模型存在过拟合风险,需通过交叉验证和正则化增强泛化能力。未来,随着金融科技与深度学习的发展,XGBoost模型有望在信贷风险预测中发挥更大作用,帮助金融机构提升风险预测的准确性,推动金融行业可持续发展。
关键词:金融风控,xgboost,主成分分析
一、引言
现代生活中,个人通过购房、购车、创业或重大投资等方式追求稳定。为了实现这些目标,人们通常会选择从银行借款。然而,这种行为并非没有成本——借款人需要偿还贷款并支付额外利息,这往往增加了他们的压力。当借款人无法偿还贷款时,就会发生违约。这种情况对借款人和贷款银行都不利:借款人的财务状况受到限制,而银行则面临损失。因此,如何预测哪些借款人最有可能违约变得尤为重要。
近年来,机器学习技术在金融领域的应用迅速增长,尤其是在贷款审批和风险评估方面。许多研究已经探索了不同的算法来预测贷款违约的可能性。例如,李璜玮等人的研究展示了机器学习在理解客户行为和风险评估中的潜力;余刚健等人所研究的机器学习在银行业反诈领域的应用探索。然而,目前关于贷款违约预测的研究仍存在一定的空白,特别是在模型性能优化和特征选择方面。本研究旨在填补这一空白,通过比较XGBoost和LightGBM机器学习模型,提出一种更高效、更准确的贷款违约预测方法,为金融信贷机构提供了强有力的风险控制工具,助力企业在复杂多变的市场环境中精准把控风险,保障资产的安全。
二、主要内容
2.1 预备知识
XGBoost(eXtreme Gradient Boosting)是由Chen等人提出的一种基于Boosting算法改进的高级机器学习模型。该模型以其高度的准确性和卓越的运算效率著称,并且具备直接处理缺失值的能力,无需预先进行插补等预处理操作。XGBoost在优化过程中利用了二阶泰勒展开式,这使得它能够更加快速且精确地找到目标函数的最优解。在XGBoost框架内,每棵树的输出得分被累加起来作为最终样本的预测值,从而形成了一个强大的集成预测模型。最终的预测函数如下:
通过对上述方程进行二阶泰勒展开,得到xgboost的目标函数:
XGBoost采用了泰勒函数的二阶展开式,提高了精度,也支持自定义损失函数。通过在目标函数中引入正则化项L1和L2,减少了模型的方差,从随机森林的实践中学习 ,支持列采样,有效地抑制了过拟合,改善了学习空间。XGBoost可以处理金融欺诈数据中正负样本分布不平衡、数据量大的问题。
2.2模型构建
2.2.1基于XGBoost的模型构建
在本研究中,我们将查询30万数据中发现在借款人中违约的人占比较少,再通过利用在此问题中前面的主成分分析所得的影响因素作为XGBoost中造成决策树的若个属性,通过建立一个决策树A(如图1),由此我们可以看见,一个通过债务收入比(用于衡量个人或家庭的债务负担与其税后收入之间的关系。一般情况下,债务收入比的临界值被认为是40%)的预测结果:如果债务收入比低于40%的人,其还款的信誉+50,如果债务收入比高于40%的人,其信誉+30;通过建立一个决策树B(如图1),可以得出循环额度利用率(金融机构向借款人提供一定的额度贷款后,在额度有效期内,只要借款人未偿还贷款本金余额不超过该额度,可分批次借款、循环使用,且每次支用不需经过复杂的流程审批)的预测结果:借款人循环额度利用率较低时,其还款的信誉+30,借款人循环额度利用率较高时,其还款的信用+15,以及通过建立一个决策树C(如图1),可以得出借款人信用档案中当前的信用额度总数的预测结果:借款人信用档案中当前的信用额度总数较低时,其还款的信用+30,但如若得出借款人信用档案中当前的信用额度总数较高时,其还款的信用+10。
在上面三个决策树中,主要根据所查询的数据利用主成分分析得到的主要影响因素制作三个决策树A、B、C,以此得到一个人还款的信用值的高低,确定是否可以借贷于此人。利用XGBoost的算法不管的生成新的决策树A、B、C、D…进行计算,最终生成的决策树算法得到树A+B+C+D…的和的决策树。
首先我们根据所查询的数据利用主成分分析得到的影响因素进行一定的初始化,使得影响因素形成初始值为0的计算值,也就是在每个人刚开始借贷前的信用度为0,在通过所查询数据中通过每个人的债务收入比、循环额度利用率、以及借款人信用档案中每次的信用额度总值最终得到几种情况:债务收入比低于40%,循环额度利用率较低,借款人信用档案中信用额度的总值较低;债务收入比低于40%,循环额度利用率较高,借款人信用档案中信用额度的总值较高;以及债务收入比高于40%,循环额度利用率较低,借款人信用档案中信用额度的总值较低三种情况下,所得的真实信用度为95、86、70。
利用初始化的信用度进行预测,利用XGBoost算法所得的决策树预测出的信用度和其真实的信用度不符合,因此建立模型的误差,从而解决预测值与真实值之间的误差问题,由此我们建立目标函数:
由此,通过收益的大小最终确定决策树节点的分裂,经过所得分裂,通过对查询数据进行处理,则得到其权重图。
在上图表中的权重显示了债务收入比、信用额度利用率、信用档案中信用额度对人借款信用值的重要程度,其加和值为1,从上表可知:
借款人信用档案中未结信用额度的数量所占比重为15.66%;表明贷款是个人申请还是与两个共同借款人的联合申请所占比重为14.20%;年收入所占比重为9.24%;贷款等级之子级所占比重为7.46%;信贷周转余额合计所占比重为6.68%;循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额所占比重为4.86%;借款人信用档案中当前的信用额度总数所占比重为4.23%;贷款等级所占比重为3.97%;验证状态所占比重为3.94%;在不考虑双人借款以及借款等级的前提下,债务收入比、信用额度利用率、信用档案中信用额度三者在其中占大比例,其中可见信用额度最为重要。
2.3模型对比评估
2.3.1 LightGBM模型的建立
LightGBM算法:LightGBM(光梯度助推机),以解决在大量数据中遇到的问题。与XGBoost相比,LGBM首先根据所有特征的数值对其进行预排序,并将水平级生长策略改变为叶级生长策略。它计算每一层的分裂节点分别和只分割叶的最大收益,提高效率在多机并行性,实现更快的计算。
K-fold:为了解决训练过程中的过拟合等问题,采用K-fold方法将原始数据划分为K个子集 ,其中一个子集作为测试集,其余的K1个子集作为独立的训练集,增加了训练数据的随机性。 测试集不参与训练,并且独立于用于最终模型评估的预测模型。
AUC:由于该任务是一个典型的用户是否存在信贷违约行为的二元分类问题,因此使用的评价标准为AUC(ROC曲线下的面积),它对数据不平衡不太敏感,可以更好地表征模型的性能。
TPR:真阳性率(TPR),也称为敏感性或召回率,是正确预测的阳性实例与实际阳性实例总数的比率。它测量了被正确识别的积极实例的比例。FPR:假阳性率(FPR)是错误预测的阳性 实例与实际阴性实例总数的比率。它表示被错误地归类为积极的消极实例的比例。
三、实证分析
XGBoost和LightGBM都是基于决策树提升(树提升)的集成算法工具。集成学习主要包括三种策略:多样性增强、学习者训练和学习者组合。这两种算法都具有对输入需求不敏感、计算复杂度低、性能好的特点,在行业中得到了广泛的应用。图中显示了这两种模型在不同大小的数据集上的性能。当数据超过10,000条记录时,模型的整体性能有所提高,但提高速度较慢。然而,当数据减少到10,000条记录时,模型的精度就会显著下降。
通过对两种模型的分析和比较(图3),可以得出结论,当数据集大或小时,XGBoost的性能优于LightGBM。当数据集较小时,两种模型的性能是相似的,但随着数据集数量的增加,XGBoost的性能改进比LightGBM更快,证明了XGBoost良好的泛化能力。
数据集包含大量的属性,属性之间的相关性分布复杂多样。LightGBM的叶级增长策略不如XGBoost的水平增长策略有效,在识别属性和参数方面,可以提高分类性能。虽然LightGBM有效地减少了计算工程中的时间和空间消耗,但在构建和预测具有大数据量和属性之间复杂关系的数据集的模型时,它的性能受到了损害。另一方面,XGBoost对这种复杂的金融数据集具有良好的泛化能力。此外,基于经济考虑,可以将数据集控制到大约40万条记录,因为当数据集超过这个大小时,模型的性能不会显示出显著的变化。
通过XGBoost算法的应用,由此可以确定以下几个因素对违约的影响较大:
1.债务收入比:债务收入比是指个人或家庭的债务负担与其税后收入之间的比率。较高的债务收入比意味着较高的违约风险。研究发现,在债务收入比位于[100,1000]区间内,违约群体呈现出与未违约群体不同的分布特征,显示出正相关关系。
2.循环额度利用率:循环额度利用率指的是借款人使用的相对于所有可用循环信贷的信贷金额。较高的循环额度利用率通常意味着借款人可能面临更大的财务压力,增加了信贷违约的风险。
3.借款人信用档案中当前的信用额度总数:较高的信用额度总数可能反映出借款人已经借用了较多的资金,这也增加信贷违约的风险。
这三个因素被确定为主要影响信贷是否违约的主要因素。在构建XGBoost模型的过程中,这些因素用来评估借款人的信用风险。
四、结论
金融领域的大数据发展推动了风险控制技术能力的显著提升。尽管目前多数风险控制模型依旧依赖于结构化数据,但它们在大规模数据利用上的潜力尚未充分释放。本文提出了一种基于机器学习的风险控制模型框架,并在实际业务场景中进行了实证研究,以验证其可行性和有效性。
实验结果显示,XGBoost模型相较于LightGBM算法展现出显著的优势。XGBoost不仅能高效处理大规模数据集,还具备较高的预测精度和较强的鲁棒性,尤其擅长处理高度不平衡的数据集,并在特征选择和权重分配方面提供了良好的可解释性。然而,XGBoost模型在信贷风险控制中依然面临挑战,特别是在金融数据的复杂性和多样性面前,存在过拟合的风险。为克服这一问题,可以采取交叉验证与正则化技术来增强模型的泛化能力。针对信贷风险预测任务,相关金融机构应重点关注债务收入比、循环额度利用率以及借款人当前信用档案中信用额度的总数等因素,确保这些关键指标的准确性,以提高预测坏账的概率。
展望未来,随着金融科技与深度学习的进步,XGBoost模型将拥有更多应用场景,其在可解释性方面的优势也将更好地服务于金融机构的决策制定过程,进而提升风险预测的有效性,促进金融行业的可持续发展,并助力打造新时代的金融新质生产力。
参考文献
[1] 面向金融场景的大数据与机器学习平台[J]. 李璜玮;刘卫东.自动化应用,2024(01).
[2] 机器学习在银行业反诈领域的应用探索[J]. 余刚健;程鹏;钟萃芳.金融科技时代,2024(03).
基金项目:基于机器学习的金融风险控制模型与优化策略研究(项目编号:Y201413325181)
作者简介:李柏村(2001—),男,汉族,四川宜宾,宁夏大学新华学院,本科在读.