商泰普惠金融论坛第六十九期|Predicting from Heterogeneous Texts

发布日期:2026-06-22   供稿人:夏连峰   浏览次数:10

2026年6月18日下午2点,爱丁堡大学商学院银行与风险分析教授、管理科学与商业经济系主任、Journal of Chinese Economy and Business Study 主编董轶哲教授,为学院老师和同学们作了一场题为“Predicting from Heterogeneous Texts: A Source-preserving Prompt-based Approach”的专题讲座。此次讲座由泰隆金融学院副院长倪禾教授主持,泰隆金融学院的老师和同学们参加了讲座。

董教授指出,当前银行信贷风险评估体系主要由两部分数据构成,一类是企业营收、资产负债等标准化结构化财务数据,仅能客观反映企业经营最终结果;另一类则是借款人自主经营自述、信贷员实地走访调研笔录等非结构化文本软信息,这类文字内容能够还原企业真实经营过程、捕捉借款人隐性信用倾向,承载着大量财务报表无法覆盖的关键定性信息,对精准识别信贷风险至关重要。但现阶段学术界与行业通用的异构文本处理手段存在难以回避的短板,一部分研究仅选取单一类文本开展建模,直接舍弃其余有价值的文字信息,造成数据资源浪费;另一类主流做法是将所有来源、不同主体产出的文本直接融合统一编码,各类文本中差异化的语义信号容易相互抵消、产生信息损耗,丢失不同信息源独有的判断价值。与此同时,传统词嵌入、主题模型输出的隐向量不存在统一的经济学解读标准,数值之间不具备横向可比性,模型整体可解释性薄弱,难以适配信贷业务高风险、强监管、需要落地决策依据的现实需求。结合小微贷款市场经典信息不对称理论,借款人为顺利获取授信天然存在美化经营状况、隐瞒潜在经营风险的主观动机,而信贷员作为中立专业第三方,经过实地核查后形成的记录客观度、可信度更高,然而现有建模工具无法量化区分两类文本的预测贡献,缺少能够分来源挖掘文本价值的完整技术方案,这也是其团队开展本次研究的核心出发点。

董教授随后细致介绍了整套研究技术路线与完整实证实验设计,团队创新搭建一套依托提示词机制、完整保留文本来源特征的掩码语言模型分析框架,底层选用 BERT、ERNIE、中文 RoBERTa 等易部署、低算力的轻量化开源预训练模型,搭配逻辑回归、LGBM、随机森林等多种主流机器学习分类器完成下游违约预测任务;实证过程综合运用消融实验拆解框架各模块独立增益、置换检验量化每一类文本变量的风险识别贡献、多维度稳健性检验保障结论可靠,同时结合银行真实经营逻辑测算模型优化带来的信贷利润提升,还将自研框架与 GPT、DeepSeek 等主流生成式大语言模型开展横向效果对比,充分论证方案优劣。本次实证数据集依托四千余条完整涉农小微企业贷款业务样本搭建,样本覆盖二十余项标准化结构化财务指标,同时收录 15 类来源各异的异构文本资料。在模型核心设计上,研究摒弃传统混合编码思路,对 15 类文本分开独立建模,专门设计贴合信贷违约任务的完形填空式提示语句,通过掩码填空机制约束模型仅输出代表高、低违约风险的限定词汇,再经过数学转换生成具备统一经济含义、可横向对比的标准化风险倾向性得分;整套框架设置离线预训练、标注样本微调两种实操运行模式,离线模式可直接调用开源模型快速生成文本得分,操作门槛更低,微调模式则利用 30% 带标签信贷数据优化模型参数,进一步放大风险识别精度。研究设置多组对照基准完成分层对比实验,直观验证本框架的预测优势,同时量化测算模型迭代优化后银行信贷业务的实际收益增长。

该研究在理论、产业实践、学术科研三个层面均具备突出价值,理论层面重构异构金融文本融合建模范式,弥补过往研究丢失源信息、可解释性不足的缺陷,丰富小微金融领域软信息量化相关实证证据;实践层面模型可大幅提升信贷违约预测准确率,帮助金融机构精准分层客户、优化授信筛选标准,切实提升信贷业务整体盈利水平,轻量化开源模型无需高额算力投入,中小型银行、地方农信机构均可低成本落地使用,且仅调整任务提示词就能拓展应用至企业盈利预测、ESG 信用评级、金融欺诈识别等多元金融场景;科研层面则为经管、计算机交叉领域研究者提供一套完整、易复刻的轻量化文本分析实操路径,清晰完整的对照实验、变量检验设计也能为相关方向学术论文撰写提供标准化实验参考。

讲座互动环节,在场师生围绕提示词模型运行底层逻辑、文本变量贡献度测算方法、大小语言模型场景选型、研究论文投稿规划、零基础开展金融文本分析的实操路径等多个关键问题踊跃提问,董教授结合自身模型开发与期刊审稿经验逐一细致答疑,针对性给出实操建议与学术规划思路。整场讲座将前沿理论、技术建模细节与金融行业真实业务实践深度融合,提出了一套低成本、高可解释、适配小微信贷场景的异构文本建模新方案,无论对商业银行优化信贷风控流程,还是交叉学科师生开展金融 AI 相关科研工作,都具备极高的参考与借鉴价值。参会师生听完完整报告与交流研讨后纷纷表示,本次分享厘清了异构文本建模领域长期存在的技术痛点,掌握了轻量化文本挖掘的完整实操思路,拓宽了人工智能与小微金融交叉研究的视野,收获颇丰、启发良多。