问鼎娱乐 百川新LLM超4o近20%,首创自约束训练方案突破瓶颈,主打领域增强
房子起源于奥飞寺
量子比特 |公众号QbitAI
大型车型的赛车比赛站在通用基地的基础上,掀起了一场“场强化”风暴。
最直观的例子刚刚出现:金融领域大模型的王座易主!
谁是新国王?突然出现的全链路金融领域的大型增强模型百川4-金融,在榜单上的成绩非常亮眼,在专业性和易用性方面均位居行业第一。
其背后的力量和手段就是域强化计划。
重点来了,确实值得大家深思熟虑!因为百川4-金融是百川智能在金融领域全链条领域增强方案的成果,该方案还可以成功迁移应用到其他领域,比如医疗、教育、法律……一站式服务,一切。
率先在金融领域落地该解决方案,是其背后的大型模型公司百川智能最直接的实践。
量子比特了解到,百川金融能取得这样的成绩,主要原因在于其全链路领域增强方案囊括了优质数据,首创了模型训练过程中的自我约束训练方案,在精细化过程中也做到了这一点。调整阶段。大量的增强工作。
本着客观理性的精神,我们依然遵循老规矩,将模型和方案一点一点拆开,放在一起审视——
开源和闭源Benchmark实测:超过GPT-4o近20%
百川公布了百川4-财经系列排名结果。总体而言,该模型在金融开源/闭源基准上均表现良好。
有多棒呢?
这么说吧,他可以当会计师,可以当交易员,也可以当精算师。他是一位纯粹的金融行业全能多面手。
我们首先看一下开源金融基准 FinanceIQ。
简单介绍一下,FinanceIQ是中国金融领域的测评数据集,涵盖10大金融大类、36个金融小类,共有7173道单选题。重点考核大型模型在金融场景下的知识和推理能力。
百川4-财经以79.23%的整体准确率位居榜首问鼎app官方下载,而GPT-4o则为66.25%。
也就是说,百川4-财经领先GPT-4o约13%。
那么我们来看看闭源的金融基准FLAME。
FLAME(金融大语言模型评估与指标评估)是中国人民财经大学本月17日发布的金融评估系统。它兼顾专业性和实用性,由两个方向的评价基准组成。
第一个是FLAME-Cer,主要面向模型化的金融职业能力评估,涵盖CPA、CFA、FRM等14类权威金融资格认证。
在 FLAME-Cer 上,百川4-财经以 93.16% 的整体准确率获得第一名,超过 GPT-4o 近 20%。在银行、基金、证券等多个资质认证领域,该模型准确率超过95%。
第二个是FLAME-Sce,重点关注模型的场景应用能力,包括10个一级核心金融业务场景、21个二级细分金融业务场景、近百个三级金融应用任务。
在FLAME-Sce评测中,百川财经的整体可用率也是业内最高的。
其中,一级核心金融业务场景模型整体可用率达到84.15%,金融数据计算、金融知识理论等应用场景可用率超过90%。
从榜单结果来看,百川财经的准确性和可靠性在同类模型中脱颖而出,这在一定程度上体现了其在金融知识领域的深厚积累和专业水平。
但正如古语所说:“相信书,胜过无书”。我们不能以清单作为唯一标准。
还是得上手才能看到效果(严肃脸.jpg)。
连续测量了三次量子比特,我们来看一下:
金融术语解释
提示:以下是金融行业常用术语(俚语)。请解释一下这个术语:技术默认。
百川财经的回答如下。
GPT-4o的答案如下所示。
最直观的感受就是百川4-Finance的答案更长、更丰富,而GPT-4o的答案则更短。
仔细阅读,不难发现,百川财经不仅对名词概念进行了阐述,还从违约条款、触发条件、后果、解决方案等多个维度对“技术性违约”进行了解释。 .,辅以功能含义和使用场景,并附有示例。
逻辑也很清晰,有助于读者充分理解概念。
GPT-4o的内容比较简单。虽然有简单的案例举例,但提供的信息量确实不如前者。
业务响应
提示:当银行发现什么情况时,应关闭单位银行结算账户的网上银行转账功能,并要求存款人到银行网点柜台办理转账业务?
百川财经结合相关《通知》的规定,给出的答复如下所示。
更适合中国宝宝的体质~
GPT-4o的答案如下。
列出了一些情况,但没有结合实际条款,比较模糊。不知道是否符合相关规定。
根据财务报表提取财务指标
提示(主要):您是一名专业的财务数据分析师,负责从提供的已知财务报表中提取特定信息。您的任务是从财务报表中提取相关数据以回答用户提出的问题。最终的问题是“截至2024年3月末,淘宝和天猫集团调整后的EBITA是多少?”
在提示中,我们附上了输出结果需要遵循的“遵循原则”:
准确性:严格按照《财务报表》提取信息,确保所有数据的准确性。完整性:如果财务报表包含用户问题所需的所有数据,请提供完整的答案;如果信息缺失,请将相应字段留空。输出格式:以JSON格式输出提取的信息,以确保易于阅读和理解。
这里附上过去财务报表的 OCR 文本以及提示。
百川财经的解答如下。
GPT-4o的答案如下。
虽然GPT在这一轮也给出了准确的答案,但附加了文字摘要;百川财经更符合“将提取的信息以JSON形式输出”的约束。
从所有的测试结果来看(包括其他一些没有纳入的案例),百川4-财经确实不容小觑,稳定性非常强。
业界首个领域自我约束训练计划
接下来是我们必须问的问题。百川是如何做到的,培养出了如此强大的百川4-财经?
百川智能给出的答案是以训练阶段的三个步骤为例。
哪三步?
训练数据准备-模型后预训练-模型微调。
(作为预览,第二阶段包含了非常好的创新策略)
第一阶段:训练数据准备
训练数据准备的第一阶段可以细分为两个步骤:数据收集和数据处理。
百川4-财经覆盖的数据集如表所示,其中既有核心专业金融知识数据,也有实际应用数据,为模型金融能力的提升提供了良好的底层支撑。
此外,为了保证模型的基础能力,团队在训练过程中特意引入了更高精度的通用数据混合训练,以保证模型既理论扎实又实用,不会只是纸上谈兵。
值得一提的是,在数据采集阶段,百川在金融专家团队的专业指导下,构建了全面、严谨、高质量的金融领域训练数据体系。
整个就是“学术权威背书+系统的知识结构+严格的质量保证”,一应俱全。
在数据处理环节,百川采用了智能数据去噪技术、高效的数据去重机制、严格的数据脱敏等,同时还建立了完整的数据处理体系。
拓展一下,首先根据样本可读性、知识密度等多个维度对单个样本进行初步打分;其次,根据不同数据源的特点,设置差异化的评价维度权重进行二次评分。最后,通过深度学习模型对多维度得分进行回归分析,得到样本的最终质量得分。
该系统不仅保证了训练数据的高质量,还通过创新的评估系统和比例优化系统很好地支持了模型性能的卓越。
第 2 阶段:模型预训练后
在第二阶段,我们对预训练后进行建模。
先从黑板说起,在训练行业领域的大型模型时,目前业界通行的做法是通用训练语料与领域数据相结合的CPT训练方法。
这种训练方法是可用的,但有两个关键挑战。
首先是如何确定最优的数据混合比例,包括领域内不同类型数据的比例以及领域数据与通用数据的融合比例;二是如何选择合适的训练策略,在课程学习、固定比例训练和组合退火等实验和其他方案中找到最佳方案。
经过大量实验,百川发现传统的固定比例直接训练方法存在明显缺陷:随着训练的进行,虽然模型的金融领域能力不断提升,但通用能力却明显下降。
考虑到金融领域包含很多不同的场景,模型的泛化能力至关重要,因此百川首先提出了训练过程的创新策略——
领域自约束训练计划+“损失缩放法则+度量缩放法则”双重预测推演过程。
这保证了模型的通用能力不降低,领域能力得到提升。
领域自我约束的训练计划是怎样的?一种在不降低模型泛化能力的情况下提高模型垂直领域泛化能力的训练策略。
这么说吧,在模型CPT过程中,直接引入领域知识会破坏原有基础模型的训练分布。因此,直接基于领域数据进行训练或者混合通用领域,必然会降低通用能力。
因此,不想破坏通用能力的百川团队提出了一个新的训练计划,名为“领域自我约束”。
具体来说,在基础领域模型的训练过程中,构建一个与基础模型参数相同且不更新参数的“参考模型”,引导模型训练过程不出现偏差,从而达到“通用能力不下降,领域能力稳定“增长”效果。
△小模型上领域自约束推导的实验结果
请注意!
百川很早就开始研究和迭代领域自约束训练方案。
百川4-金融只是百川领域自我约束培训项目在金融行业应用的一个实施案例。这个方案其实是具有普适性的,可以适应任何垂直领域和行业,包括但不限于医疗、教育……
至于“损失标度律+度量标度法”的双重预测推演过程,来源来自江阿姨:
百川团队在小参数模型上进行了多组参数、多组数据匹配实验,获得了足够多的从数据匹配到领域损失的曲线样本,从而构建了从匹配到损失的回归模型。
然后根据领域损失与自建通用指标体系和金融知识体系的对应关系,构建了领域损失到模型最终优化目标的回归模型。
通过上述两个模型,团队实现了从参数配比到训练目标和结果的推演过程,从而实现动态监测和模拟模型训练趋势。
以下是使用训练预测方案获得的匹配数据训练的模型。总体效果在通用能力上领先于通用基础模型效果:
在模型Post-Pretrain的过程中,百川团队还完成了多维度的测试集,即每个检查点的综合能力测试。
涵盖通用知识能力、通用应用能力、金融知识能力、金融应用能力等。
综合起来,这套训练和评估方案保证了模型在金融专业领域的强大实力,并保持稳定的跨领域综合表现。
第三阶段:模型微调
在最终的模型微调阶段,主要使用监督微调(SFT)和强化学习策略(RLHF)。
执行 SFT 是为了优化模型在特定财务任务上的性能;而RLHF主要是为了进一步提高模型性能。
这里不再赘述,但为了严谨起见,我们以RLHF在数学能力上的表现为例。
从下图中可以看出:
数学增强型 PPO 版本 (Baichuan4-Finance) > 数学增强型 SFT 版本 (Baichuan4-Finance w/o PPO) > 非数学增强型 SFT 版本 (Baichuan4-Finance-Base-SFT)。
回过头来看,在没有增强的情况下(蓝色曲线),模型Pass@1和pass@5结果的准确率存在较大差异,这说明模型本身在各种数学能力项上仍然具有很大的潜力。
增强后(橙色曲线),模型的数学能力得到了大幅提升,且提升趋势与潜在趋势(蓝色曲线)正相关。
因此,这表明强化学习的引入可以使模型在数学等以答案为中心的问题上表现更好。
全面提升金融产业价值
在攻克了模型在垂直领域应用中“通用能力与泛化能力的平衡”的主要问题后,百川金融可以大显身手,实现金融行业多维度的综合价值提升。
举一个百川财经用户的真实例子
商业银行信用卡中心每天需要处理数十万笔客户查询,业务高峰期异常繁忙。
基于百川金融打造的智能客服解决方案后,该中心充分利用了该模型的金融专业知识和多轮对话。
系统能准确了解客户意图问鼎娱乐电子游戏,自动解答包括账单分期、限额调整、优惠活动、积分兑换等常见业务查询,并能根据客户的实际需求做出精准的产品推荐;对于复杂的问题,模型可以进行多轮对话和澄清,确保准确理解客户需求。
同时,系统还可以根据实时交互场景和用户画像,提供个性化的解决方案和产品建议问鼎娱乐下载链接入口,并在涉及敏感信息时进行智能脱敏。
由此,中心现拥有7*24小时精准即时响应,客户等待时间缩短80%,人工成本降低40%,预计产品转化率提升30%。
再比如,某保险公司利用百川财经搭建了智能营销辅助系统,产品匹配准确率提升了50%;预计还可将获客成本降低30%;通过个性化营销策略,预计可提升产品转化率40%,实现养老金融产品精准营销。
而且,在所有的实际应用中,由于它可以始终在线,具有强大的多轮对话能力,并且具有强大的专业知识储备,因此为用户提供了个性化的服务。所有使用百川金融的机构此前均采用传统人工客服参与流程。可能出现的响应速度慢、服务质量不稳定、专业知识储备不足等痛点都得到了解决。
正如我们之前提到的,百川4-金融是百川行业首个在金融领域的自我约束培训计划的实施。从以上具体效果、数据和口碑反馈可以看出:
此计有效,好用,初战告捷。
百川下一步必然是以自有的大型基地模式为基地,瞄准各个领域、各个行业,一项一项进行“领域强化”。
与此同时,百川自己的大模型生态系统也在这两年逐步建立起来——
已服务数千家客户,包括北电数智、完美世界游戏、爱奇艺、360集团、圣学教育、爱学堂等各行业龙头企业;与新雅达、用友、软通动力、新知软件、大观数据、华盛天成等众多行业生态合作伙伴合作;还与中国移动、中国电信、中国联通等运营商携手。
回望过去,百川4金融的发布,不仅标志着百川智能科技战略的领先地位和首创解决方案的实用价值,也见证了通用模式向垂直领域推广的巨大价值。
这也预示着从2025年开始,大车型的能力将在更多行业和领域产生更深刻、更长远的渗透和影响。
FLAME GitHub地址:
- 超过-
量子位QbitAI·今日头条签约
关注我们,第一时间了解前沿技术动态
我要评论