
近年来,人工智能(AI)大模型如风暴般席卷了信贷领域。当信贷AI从演示验证走向深度应用时,却遭遇一系列痛点问题。最突出的表现是大模型对专业场景的失焦,大模型往往更注重通用的能力,无法从数百页银行流水中识别出隐性负债、可疑的关联方交易,缺乏对信贷场景的适配性。
数据的合规问题在信贷行业也很棘手,风控模型因其训练数据涉及用户隐私、企业商业机密,无法被共享。此外,在真实生产环境中还是会遇到许多突发和个性化的问题。例如,客户上传的营业执照可能边缘有褶皱,因年份过长可能出现褪色;远程面审时,网络延迟和视频压缩会导致语音断续、面部模糊。这些在实验室被过滤掉的噪音,恰恰是线上场景的常态,专门针对此类场景的鲁棒性测评目前也是缺失的。
现阶段,信贷行业呈现出投入大、选型盲和验证难的困境,大量资源被消耗在解决相同的基础问题上。为了解决行业的普遍性问题,奇富科技联合复旦大学与华南理工大学研究人员近日共同发布首个面向信贷场景的多模态评测基准FCMBench-V1.0。该基准基于真实信贷业务场景,抽象科学问题,设计多模态评估任务与挑战,以期构建来源于业务、服务于业务的实用性评测体系。

奇富科技多模态负责人杨叶辉介绍,FCMBench-V1.0构建了与真实银行审核流程高度一致的评测框架,涵盖18类核心信贷证件,如身份证、收入证明、银行流水、房产证等,包含4043张合规图像和8446个测试样本,问题覆盖信贷审核全链条。
评测尽可能全面覆盖所有实际应用场景和需求。其创新的“感知—推理—鲁棒性”三维评测体系,对信贷AI模型所需的实战核心能力提出了全面考核。感知维度包含文档类型识别、关键信息提取、图像质量评估三大任务,考验模型从复杂图像中提取基础信息的能力;推理维度涵盖一致性校验、有效性校验、数值计算、合理性审核四类任务,模拟信贷员交叉验证信息、判断材料有效性的核心工作;鲁棒性维度则设置十类真实采集干扰,如倾斜拍摄、光照不均、反光等,测试模型在真实应用场景中的稳定性。
在数据层面,在保证多样性的基础上,满足合规性要求。数据采集支持单图像和多图像格式中的一种或多种证件,涵盖信贷审核中遇到的各类数据类型。以真实信贷材料为基础,在保证文档格式高度仿真的同时,手动生成一系列信贷相关证件,其中所有敏感信息均为虚构。
事实上,弥补通用大模型在信贷领域“专而不精”的劣势,互联网大厂已经采取了行动。蚂蚁数科联合行业内专业机构推出Finova大模型金融应用评测基准,深度考察智能体能力、复杂推理以及安全合规能力,并构建了金融任务分类体系,包括六大类、六十六小类场景,覆盖银行、证券、保险、基金、信托等金融全场景。
蚂蚁消金基于通义千问基座训练“消费信贷垂类风控大模型”,将任务详细拆解为授信、审批、专项优化反欺诈和信用评估等指标。京东科技则依托供应链生态,强化票据、合同、仓单等多模态单据的结构化识别与交叉验证,针对金融语义进行了专项重构。
“信贷场景的这些挑战对于多模态大模型的能力是非常好的试金石。”杨叶辉表示,信贷审核涉及几十类证件、每类证件有多种模板、审核流程涉及多个环节和任务,以及多证件的交叉推理验证,用户拍摄的场景和上传的文件也多种多样。未来会持续完善评测基准,希望打磨好一把公平、公正、面向实战需求的尺子。
华泰优配提示:文章来自网络,不代表本站观点。