百川智能近日发布了其新一代医疗强化大型语言模型Baichuan-M3,这一模型在多个关键医疗AI评测中超越了包括GPT-5.2在内的竞争对手,刷新了医疗AI评测的天花板。Baichuan-M3的核心优势在于其能够显式地建模临床决策过程,从而在真实医疗实践中展现出更高的可用性和可靠性。它不仅仅生成听起来合理的答案,而是被训练为主动获取关键临床信息,构建连贯的医疗推理路径,并系统性地约束易产生幻觉的行为。

Baichuan-M3在HealthBench、HealthBench-Hard、幻觉评估和SCAN-bench等多个评测中均表现优异,超过了OpenAI的最新模型,确立了医疗AI的新SOTA(最佳水平)。特别是在SCAN-bench评测中,Baichuan-M3在临床询问、化验检测和诊断三个维度中均排名第一,其中在临床询问维度上领先第二名12.4个百分点。此外,通过Fact-Aware强化学习,Baichuan-M3实现了比GPT-5.2更低的幻觉率,即使在未使用外部工具的情况下也能保持高可靠性。

与Baichuan-M2相比,Baichuan-M3在HealthBench-Hard上的表现提升了28个百分点,达到44.4%,并在HealthBench总榜上排名第一。这一成就标志着百川智能在医疗AI领域的重大突破,为医疗行业提供了更先进、更可靠的AI解决方案。

标签: none

评论已关闭