3044AM永利集团官方网站-登录入口

公司新闻

首页 > 公司新闻 > 正文

上体上交清华牵多国之手，全球首项糖尿病培训大模型检测验证前瞻性研究问世

来源：3044永利集团官网时间：2025-02-06 09:41:17 浏览：

摘要：近期，3044集团官网入口、上海交通大学与清华大学合作，联合来自多个国家和学科的学者，在权威期刊《Science Bulletin》期刊上发表了全球首个针对糖尿病培训的大型语言模型检测与前瞻性验证的研究成果。鉴于糖尿病对全球健康构成了重大挑战，且医疗保健专业人员对糖尿病的理解水平存在差异，糖尿病培训的重要性日益凸显。大型语言模型（大语言模型）为糖尿病培训提供了新的可能性，但它们在处理糖尿病相关查询方面的实际表现，特别是在非英语语言环境（例如中文）中，一直不甚明确。研究团队对 ChatGPT-3.5、ChatGPT-4.0 以及通义等10个国内外模型进行了基于中英双语专业考试的评估，并研究了大模型在辅助初级保健医生培训方面的效果。研究结果表明，多数模型成绩优异超医生，且助力提升成绩，展现强大能力，有望重塑糖尿病护理培训格局。

文章在线截图（https://doi.org/10.1016/j.scib.2025.01.034）

正文：

根据国际糖尿病联盟的统计数据，全球糖尿病患者数量已突破五亿大关，每年的医疗开支超过万亿美元，这一沉重负担对各国医疗体系构成了巨大压力。基层医疗人员在糖尿病知识掌握方面存在显著差异这凸显了专业培训的缺失。然而，大型语言模型（LLM）的问世为糖尿病教育培训领域带来了新的希望。尽管如此，这些模型在糖尿病相关查询任务中的实际效能，特别是在非英语语境（例如中文环境）中的表现，仍然充满了不确定性。

跨国科研攻坚：打破糖尿病培训智能应用僵局

3044集团官网入口博士生李灏萱，在导师盛斌教授指导下，联合上海交通大学和清华大学的多学科团队，携手美国杜克大学、约翰霍普金斯大学、澳洲墨尔本大学、新加坡眼科中心等国际顶尖学府和研究机构，共同组建了全球糖尿病培训智能研究的“梦之队”。该研究团队精心挑选了10个备受瞩目的大型语言模型进行深入研究，这些模型包括：ChatGPT - 3.5、ChatGPT - 4.0、Google Bard、LlaMA - 7B、LlaMA2 - 7B、百度ERNIE Bot、阿里通义千问、MedGPT、Huatuo GPT以及Chinese LlaMA2 - 7B。研究团队基于中国国家初级糖尿病护理证书考试（NCE - CPDC）和英国皇家内科医公司会员内分泌及糖尿病英语专科证书考试（MRCP UK），对这些模型在糖尿病相关查询方面的性能进行了全面的评估。此外，研究团队还在NCE - CPDC考试中，对比分析了在有无ChatGPT - 4.0辅助的情况下，真实世界初级保健医生的培训效果，以此来探究大型语言模型作为医疗助手的可靠性。

测评重磅结果：模型惊艳表现颠覆传统糖尿病管理认知

根据本研究的大模型在糖尿病培训应用场景下的检测验证前瞻性研究数据分析，在NCE - CPDC考试中，ChatGPT - 4.0、阿里通义千问、百度ERNIE Bot、Google Bard、MedGPT和ChatGPT - 3.5均成功通过了测试，而LlaMA2 - 7B、HuatuoGPT、Chinese LlaMA2 - 7B和LlaMA - 7B则未能晋级。特别地，ChatGPT - 4.0在NCE - CPDC考试中取得了84.82%的高分，显著超越了所有初级保健医生的平均水平。此外，该模型还能帮助大多数初级保健医生提升成绩1%至6.13%。然而，在英语考试中，ChatGPT - 4.0的通过率为62.50%，而Google Bard、LlaMA - 7B和LlaMA2 - 7B均未能达到及格标准。

在传统培训模式下，初级保健医生通过NCE - CPDC考试的准确率介于68.57%至81.16%之间，这一成绩明显低于ChatGPT - 4.0所取得的84.82%。在初级保健医生的第二轮测试中，得益于ChatGPT - 4.0的辅助，大部分参与者的最终通过率均有所提高，其中一位拥有11年临床经验的PCP甚至表现优于ChatGPT - 4.0。然而，也有两位PCP在使用ChatGPT - 4.0辅助后表现有所下降，这可能是由于其误导性解释所导致。令人鼓舞的是，几乎所有PCP对于将大型语言模型作为糖尿病培训辅助工具均表现出浓厚的兴趣和积极的态度。

智能赋能未来：大模型重塑糖尿病护理与培训新生态

综合分析表明，绝大多数大型语言模型（LLMs）在解答糖尿病相关问题时，均表现出深厚的知识储备和卓越的逻辑推理能力，其中以ChatGPT-4.0、阿里通义千问和百度ERNIE Bot等模型的表现尤为显著。这一现象充分证明了大型语言模型在为医疗专业人员提供基础糖尿病知识和培训方面的巨大潜力，预示着其在医疗培训领域可能引发的深刻变革。尽管当前的大型语言模型在高效处理医学信息并提供解答方面表现出色，但它们尚无法取代医生所具备的批判性思维、创新精神和创造力。

展望未来，经过特定领域知识微调的大型语言模型有望为初级保健医生（PCPs）和糖尿病患者提供更高质量的糖尿病培训体验。该模型能够迅速整理和分析大量文本、学术论文以及糖尿病相关文献，提取关键信息，并为用户提供清晰、精炼的内容摘要。例如，将大型语言模型与深度学习模型相结合，可为医生提供更具参考价值的临床建议。此外，大型语言模型可模拟虚拟患者或教练的角色，通过生成病例研究和模拟临床情景，帮助初级保健医生提高沟通和决策技能，从而为初级糖尿病护理提供有力支持。对于糖尿病患者而言，大型语言模型能够加强医患之间的沟通，提供个性化信息，协助患者进行疾病的持续管理。

本研究对五个基于英语的糖尿病护理考试和十个基于中文的糖尿病护理考试中大型语言模型的表现进行了评估，发现它们拥有广泛的知识基础和强大的推理能力，能够以多种方式协助初级保健医生进行糖尿病培训，这对于为患者和人群制定决策具有重要意义。大型语言模型在糖尿病培训中的创新应用，标志着糖尿病护理和管理正朝着个性化、全面化和便捷化的方向发展。可以预见，在未来，大型语言模型将在糖尿病防治及其他医疗领域发挥更为关键的作用，为提升全球医疗健康水平做出重要贡献。

撰稿人：李灏萱