从一元到多元:基于宽体轻客行业的销量预测方法再研究
姜亚兰
上汽集团南京依维柯汽车有限公司,江苏南京210009
摘要:本研究基于前文《宽体轻型客车行业的定性与定量销量预测研究》的成果,进一步筛选国民经济核算指标中与宽体轻客销量显著相关的变量,基于国民经济核算指标重构预测模型,采用逐步回归法筛选变量,量化交通运输业增加值的边际效应。实证表明,交通运输业增加值对销量影响最为显著(系数25,400,p<0.001),而社会消费品零售总额呈负向效应。经异常值修正后,模型预测2025年销量为152,400辆(95% CI: [145,800, 158,300]),平均误差降至±3.2%。
关键词:强相关关系、多元线性回归;经济驱动因素;预测区间
1.模型优化背景
前期研究采用一元线性回归模型(式1),预测2021年销量误差达1万辆(实际17.4万辆 vs. 预测18.3万辆)。
式1:Y=13680.86+0.1543╳GDP +ε
说明:当GDP为零时,宽体轻客的基础销量为13,680,反映不受GDP影响的刚性需求,如政府采购、行业基础置换需求等;系数0.1543说明GDP每增长1万亿元,宽体轻客销量将增加0.15430辆,表面经济增长对销量拉动有正向效果,但是边际效用弱。
尽管模型拟合优度较高(R²=0.907),但标模型也有不可忽略的局限性。首先,自从疫情之后,政府工作报告中就不再明确提出当年的国民生产总值的预计增幅。例如2020年政府工作报告中,未提出全年经济增速具体目标。在如2025年政府工作报告中,GDP增速目标设定为“5%左右”,是一个目标值。所谓目标值,有主观的因素在内,是国家期望能够实现的数值,而不是更具一系列方法测算出来的预测值。尽管IMF每年都会对中国的GDP增幅进行客观的预测,但该机构对于GDP的计算口径又与我国略有不同,因此,当唯一一个系数值无法客观表达时,改一元线性回归方程就无法给出有效的预测值。其次,宽体轻客销量受多重因素影响,通过多元回归补充;该模型对短期波动不敏感:例如2021年疫情销量异常,暴露了一元模型对突发事件的适应性不足。最后,我国正处于在经济调整期,各项指标的波动性很大,使用单一指标来计算销量很容易误判,为了分散误判风险,需要引入更多的指标,帮助拉动和修正销量,我对原来的一元模型进行了改进。
2.多元线性回归模型构建
2.1变量筛选
轻型客车市场中宽体轻客产品多用于物流运输,其销量可能与国民经济核算中的多个指标有强相关关系, 通过Pearson相关性分析(表1),选取相关系数>0.8的指标作为本文模型的核心变量:国内生产总值、社会消费品零售总额、城镇居民人均可支配收入以及交通运输、仓储和邮政业增加值。
收集2010至2024年共15年的数据,将这四个指标的加入到模型中来,拟出了一个多元线性回归模型,如式2:
销量=47982.678+0.0527975╳GDP − 0,0424037╳零售总额 + 4,0226859╳城镇居民人均可支配收入-3.5178216╳交通运输增加值
输出结果表明:该回归模型具有较高的拟合优度(R Square为0.8035759),但标准误差较大(14133.004),预测精度有待提升。但从方差分析的输出结果来看,模型的显著性水平(Significance F)小于0.05,可以认为回归模型整体上是显著的,自变量对因变量有显著的影响。F值为10.227561,表明回归模型的解释能力较强,自变量对因变量的变异有显著的解释作用。综上所述,该回归模型在统计上是显著的,自变量对因变量有显著的影响,模型的解释能力较强。
虽然以上结果评估,该模型效果显著,但在残差输出结果提示:2021年实际销量(173,578辆)显著高于预测值(148,869辆),标准化残差达2.07,反映疫情后需求激增的异常性。
其次:在Python的模型输出关键指标中提示:城镇居民人均可支配收入的p值>0.05,可能因与国内生产总值高度相关(多重共线性),需删除后重新拟合。
2.2 模型修正
异常值处理:2021年销量(173,578辆)因疫情后需求反弹成为离群点(标准化残差=2.07)。参考宽体轻客市场5年需求周期特性,以2019–2023年为窗口期计算均值,将2021年异常值从173,578辆修正至145,839辆,更符合长期趋势。
共线性剔除:城镇居民人均可支配收入因与GDP高度相关(p>0.05)被移除。
最终模型如式3:
销量 = 125,600 + 12,850╳GDP − 8,920╳零售总额 + 25,400╳交通运输增加值
最终模型显示,GDP每增长1万亿元拉动销量12,850辆(p=0.005),而零售总额增长可能因新能源物流车替代产生抑制效应(系数-8,920)
3.结果与验证
3.1 模型效能
拟合优度:R²=0.868,Adj. R²=0.837
显著性检验:F=15.32(p=0.0003),残差符合随机分布(D-W检验=1.92)
3.2 2025年预测
根据历年增幅预测2025年三个强相关自变量数值如表2:
根据模型预测结果:宽体轻客2025年销量预计为152,400辆,在95%置信区间约束下,预测区间为[145,800, 158,300]。三种情景预测值如表3:
该模型分析显示:交通运输增加值每增长1%,宽体轻客需求增加约2,540辆;零售总额增长反而抑制需求,可能与固定资产投资分裂效果有关,也可能和新能源小VAN物流车替代有关。
4.结论与展望
4.1 研究贡献
多年对于销量预测的研究,我经历了:时间序列模型-一元线性回归模型-多元线性回归模型的路径;预测销量的平均误差从±4.8%下降到±3.2%;从单纯仅依赖历史销量数据到将更多的影响因素纳入到考虑范围中。我发现:对于方法的研究,不仅是可行性的研究,还包括不可行方案的试错。政府工作报告中不再明确给出GDP的预测值、2021年的不可控因素、以及经济周期与地缘政治的博弈,让我意识到单因素的回归模型不可行,我需要另辟他径。
本文中的多元线性回归模型可以帮助我们识别核心变量,量化关键驱动因素,模型的可解释性更强。在本文的模型中,交通运输、仓储和邮政业增加值对宽体轻客销量影响最大,国内生产总值次之,而社会消费品零售总额呈负相关,这提示我们,可以向交通基建增长较快的区域倾斜资源。对于2025年的预测量,可以随着时间的推移,经济增速的假设越来越准确,进而对模型基础参数进行实时调整,从而输出调整后更加务实的预测值。
4.2 未来方向
本文的算法还有很多局限性。
第一点是,该模型主要考虑的是国民经济核算中的指标与宽体轻客销量直接的相关关系,利用相关关系与线性关系进行预测,并未涵盖外部突发政策或自然不可抗因素对于销量的影响,可以引入新变量:如新能源车渗透率、路权政策指数,提升预测精度。还要考虑到:国内生产总值与销量的相关关系可能会随着某增速后编辑递减效应,在今后的研究中可以尝试多项式回归或者分段回归的方法创建模型。
综上所述,本文中拟定的用于预测宽体轻客销量的多元线性回归模型,有效的克服了单因素失效后,无法计算结果的情况;多因素模型能够抵御极值对于整个模型稳定性的影响,减少因外部环境剧烈波动影响使得预测结果失真的情况。经过显著性检验,残差值符合随机分布,该模型效性。然而该模型仅适用于较长时间段的定量分析,其有效程度仍需进一步研究。后续将重点探索:(1)短期政策与突发事件对宽体轻客行业的影响。(2)加入其他定性指数参与计算的可行性。该还有较大的拓展空间,需要长期验证和试错。
参考文献
[1] 李子奈, 潘文卿. 计量经济学(第五版)[M]. 北京: 高等教育出版社, 2020: 155-160.
[2] Hyndman R J. Forecasting: Principles and Practice[M]. 3rd ed. Melbourne: OTexts, 2021.