百川智能Baichuan-M3发布：医疗AI评测新里程碑

百川智能近日发布了其新一代医疗强化大型语言模型Baichuan-M3，这一模型在多个关键医疗AI评测中超越了包括GPT-5.2在内的竞争对手，刷新了医疗AI评测的天花板。Baichuan-M3的核心优势在于其能够显式地建模临床决策过程，从而在真实医疗实践中展现出更高的可用性和可靠性。它不仅仅生成听起来合理的答案，而是被训练为主动获取关键临床信息，构建连贯的医疗推理路径，并系统性地约束易产生幻觉的行为。

Baichuan-M3在HealthBench、HealthBench-Hard、幻觉评估和SCAN-bench等多个评测中均表现优异，超过了OpenAI的最新模型，确立了医疗AI的新SOTA（最佳水平）。特别是在SCAN-bench评测中，Baichuan-M3在临床询问、化验检测和诊断三个维度中均排名第一，其中在临床询问维度上领先第二名12.4个百分点。此外，通过Fact-Aware强化学习，Baichuan-M3实现了比GPT-5.2更低的幻觉率，即使在未使用外部工具的情况下也能保持高可靠性。

与Baichuan-M2相比，Baichuan-M3在HealthBench-Hard上的表现提升了28个百分点，达到44.4%，并在HealthBench总榜上排名第一。这一成就标志着百川智能在医疗AI领域的重大突破，为医疗行业提供了更先进、更可靠的AI解决方案。

百川智能Baichuan-M3发布：医疗AI评测新里程碑

评论已关闭