河北省科技企业宏观质量画像研究
曹丽娜
华北科技学院 河北 065201
1 绪论
省作为我国科技创新重要组成,借京津冀协同发展契机承接京津科技资源,优化创新环境,推动科技企业发展,但仍面临内外挑战:外部受全球贸易保护主义、技术封锁影响,国际市场拓展与技术引进受阻;内部存在创新资源分布不均、高端人才短缺、核心技术受制于人等瓶颈。“质量” 是科技企业发展核心,需从规模、创新能力、风险防控多维度提升。企业宏观质量画像可整合多源信息,直观展现企业质量特征,为企业发展、政府监管、市场决策提供参考,对把握省科技企业现状、制定针对性政策、推动其高质量发展意义重大。
“画像” 源于 1999 年 Alan Cooper 提出的 “用户画像”,后 Webb G I、Degemmis M等用机器学习推动技术成熟。企业画像逻辑与之相似,国际上美国邓白氏公司借多源数据构建企业征信画像;国内早期研究聚焦单一领域,如裘华东(2017)、张建(2017)分别构建电力客户、纳税人画像,池仁勇(2021)、蔡盈芳(2021)聚焦信用、政务领域。
本研究聚焦省科技企业,整合多维度数据,借海量网络数据与 K-prototypes聚类,从规模、创新能力、经营风险等维度,全方位展现企业质量特征,提升标签提取准确性。
2. 科技企业宏观质量画像理论与方法
2.1 宏观质量与宏观质量画像概念
传统的质量研究大多聚焦于产品质量领域。程虹(2009)在《宏观质量管理》中指出,宏观质量管理是对国家或区域总体质量现象的研究,它以微观质量为基础,通过对众多微观质量的综合加总形成总体质量 。本研究中,将宏观质量的研究主体确定为省科技企业。“宏观质量画像” 是指基于大量网络数据,从企业规模、创新能力、经营风险、司法风险等多个维度,全面、直观地展现省科技企业质量特征的可视化分析工具,旨在突破单一质量要素的局限,实现对企业质量的全方位刻画。
2.2 科技企业宏观质量画像指标体系构建
基于对省科技企业质量因素的分析,并结合 “启信宝” 平台的数据分布情况,构建标签体系。在指标筛选过程中,严格遵循目的性、全面性、可获取性、可比性、完整性等原则 。具体指标及数据类型如下表所示:
表 1 指标数据选取及数据类型

2.3 画像标签设定方法
根据数据类型的不同,采用以下三类标签提取方法:
1.直接提取:适用于命名类数据,如企业类型、地址等。这类数据无需进行分类处理,可以直接作为标签使用,例如“内资企业”“存续状态”等。
2.统计分析提取:对经过预处理的数据进行统计运算。例如,计算企业的经营期限(到期时间—注册时间),并结合柱形图、饼图等可视化方式呈现结果,从而生成事实标签。
3.算法提取:主要利用 K-prototypes 算法对定量化且无明显规律的多维数据进行聚类,如企业规模指标数据,挖掘数据中的隐含特征,生成相应的画像标签 。
2.4 K-prototypes 聚类算法
K-prototypes 算法能够处理混合数据(包括数值型和分类型数据),通过设置权重来平衡两类数据在聚类过程中的影响 ,非常适合本研究中省科技企业混合数据的特点。本文基于 K-prototypes 聚类算法对指标数据聚类,指标数据涉及“企业规模标签”和“企业创新能力。
3. 科技企业宏观质量画像构建及标签设定
3.1 数据准备
基于标签体系,利用爬虫技术从“启信宝”平台获取近三年年省科学研究及技术服务业企业数据,涵盖企业基本信息、行政处罚、质押、专利、司法冻结、资质等维度,原始数据共 8421 条。删除空白、缺失值样本后最终保留有效数据 8205 条。
3.2 科技企业宏观质量画像标签提取
(1)科技企业规模标签提取
以“注册资本”“经营期限”为核心指标,采用 K-prototypes 聚类提取规模标签,步骤如下:
首先对注册资本、经营期限进行归一化处理,消除量纲影响。其次,为确定最优 K值,采用手肘法(横轴为 K 值,纵轴为误差平方和 SSE),当 1=2 时,SSE 下降趋势由显著转为平缓(图 2),故确定 K=2 ;
图 2 不同聚类 K 值下的 SSE

将 8205 条数据的规模标签分为两类,具体如下表所示:
表 3 科技企业规模标签聚类结果

(2)科技企业创新能力标签提取
以“专利数量”、“发明专利数量”、“有效专利数量”、“申请中商标数量”、“已初审商标数量”、“已注册商标数量”、“已失效商标数量”为核心指标,采用 K-prototypes 聚类提取规模标签。同样,先用手肘法确定最优聚类个数 K 值为 4。得到创新标签的结果如下所示:
表 4 科技企业创新能力标签聚类结果

4. 总结与展望
本研究整合省 8205 条科技企业有效数据,构建含基础属性、规模等多维度指标体系,采用 K-prototypes 聚类等提取规模、创新能力等标签,形成各指标维度下的企业画像标签,明确不同画像企业的规模、创新与风险特征,为企业战略定位、政府精准监管提供一定方法依据。
参考文献
[1]裘华东,涂莹,丁麒.基于标签库系统的电力企业客户画像构建与信用评估及电费风险防控应用[J].电信科学,2017,33(S1):206-213.
[2]张建, 张瑞琰, 李玲. 运用“画像”思维促进税收征管方式转变[J]. 税务研究,2017(12):104-107.
[3]池仁勇,董颖.持续创新企业的信用画像特征——基于关键词迭代法[J/OL].科技进步与策,2022:1-8.
[4]蔡盈芳,李子林,虞香群.基于企业用户画像的政务档案信息整合利用模型设计[J].档案学研究,2021(02):125-131.
[5]程虹.宏观质量管理[M].湖北:人民出版社,2009.23.
项目支持:2025 年省廊坊市科技局廊坊市软科学研究计划项目(2025011030):面向智能化服务平台的企业质量画像技术与推荐算法研究)