一个模型读懂所有医学数据Hulu-Med探索医学大模型开源新范式浙大x上交xUIUC

浏览次数：时间：2025-11-15 13:05:04

　　而这就是浙江大学（吴健/刘佐珠课题组）、上海交通大学（谢伟迪课题组）、伊利诺伊大学厄巴纳-香槟分校（UIUC，SunJimeng课题组）联合阿里巴巴、湖南大学、新加坡A*STAR、中国移动、时代天使、浙江省医学影像人工智能重点实验室等机构联合提出的通用医学视觉语言大模型Hulu-Med，首次实现在一个单一模型中对医学文本、2D图像、3D体积和医学视频的统一理解。

　　而且作为开源模型，其训练数据均来自公开医学数据集及自研合成数据，不仅能大幅度降低GPU训练成本，更是在30项权威评测中展现出媲美GPT-4.1等闭源模型的优异性能。

　　这意味着学术机构及医疗开发者无需再依赖私有数据，即可复现并定制高性能医学模型，显著降低隐私与版权风险。

　　过去，AI在医疗领域的应用呈现出单任务/单模态的局限性。研究者们针对放射影像、病理切片或手术视频等单一任务，开发了众多性能卓越的专用模型(SpecializedModels)。

　　然而，这些模型架构各异、数据独立，如同一个个“信息孤岛”。当临床上需要综合分析同一位患者的多模态数据时，就必须拼凑一套复杂、昂贵的系统，这不仅维护成本高昂，更限制了AI从跨模态关联中学习和推理的能力。

　　如今，大语言模型和基础模型的兴起，为我们带来了实现“通用医学智能(GeneralistMedicalAI)”的曙光，有望解决上述难题。

　　然而，这一浪潮也带来了一个更严峻的挑战：透明度的缺失(LackofTransparency)。许多领先的医疗AI系统，其训练数据来源、处理方法、模型架构甚至评估细节都常常秘而不宣。这种不透明性是阻碍AI在医疗领域广泛应用的关键障碍：

　　正是在碎片化与不透明这两大行业痛点并存的背景下，Hulu-Med应运而生，旨在提供一个真正统一（Unified）且完全透明（Transparent）的解决方案。

　　Hulu-Med旨在成为一个“医学多面手”，不仅能理解单一类型的数据，更能融会贯通，从整体上把握患者的健康状况。

　　Hulu-Med将透明度置于最高优先级，研究团队深信，开源开放是推动医学AI健康发展的必由之路。

　　Hulu-Med的训练完全基于公开可获取的数据集和合成数据，摆脱对私有、敏感数据的依赖。

　　研究团队精心整理并构建了目前已知规模最大（1670万样本）的开放医学多模态语料库，该语料库覆盖了12个人体主要器官系统和14种主要医学影像模态（包括CT,MRI,X光,病理等60多种具体类型）。

　　公开数据往往存在模态覆盖不均、图文对齐质量参差不齐、长尾分布显著等问题。

　　为了克服这些挑战，研究团队开发了5种专门的数据合成管线，能够将简短图注扩写为详细描述、为无标注图像生成高质量长文本描述（尤其针对样本稀疏的模态）、构建多样化的视觉问答对、生成多语言长思维链（LongCoT）推理数据以及为缺乏标注的手术视频生成时序描述。

　　这些高质量的合成数据（总计约286万样本）极大地丰富了训练语料，提升了模型的泛化能力和对复杂指令的理解力。

　　研究团队公开整个研发管线，包括详细的数据筛选与合成流程、三阶段训练代码、所有基准测试的评估脚本，以及最终训练完成的所有模型权重。

　　这意味着任何研究者都可以完全复现团队的工作，并在其基础上进行改进或针对特定应用进行微调。

　　这种彻底的开放性不仅有效规避了使用私有数据可能带来的隐私泄露和版权纠纷风险，更重要的是，它赋能了整个研究社区，降低了高质量医学AI的研发门槛，有助于催生更多定制化的、可信赖的医疗应用。

　　Hulu-Med的核心技术突破之一在于其创新的统一架构，首次实现了在单一模型内原生处理文本、2D图像、3D体积和医学视频四种核心模态。

　　传统VLM通常需要为不同视觉模态（如2D图像和3D体积）设计独立的编码器，或者采用将3D/视频数据拆解为2D帧序列的折衷方法，这限制了模型对空间或时间连续性的深度理解。

　　采用先进的SigLIP视觉编码器，并将其与二维旋转位置编码（2DRoPE）相结合。

　　2DRoPE能够动态编码Patch在二维空间中的相对位置信息，无需预设固定的输入尺寸。

　　通过巧妙的设计，它将图像Patch视为跨所有视觉模态（2D图像、3D切片、视频帧）的通用处理单元，使得模型能够将3D体积数据视为切片序列、视频数据视为帧序列。

　　并在统一的Transformer架构内自然地理解其空间或时间上的连续性与关联性，而无需引入任何特定于3D或视频的复杂模块。

　　这种统一架构不仅支持任意分辨率的医学影像输入，还天然具备了强大的时空理解能力。

　　基于独立的视觉编码器与大型语言模型（LLM）解码器开展持续预训练和后训练，这提供了极大的灵活性，允许研究者根据具体需求，轻松替换或升级视觉编码器或LLM骨干（如使用不同规模或能力的Qwen系列模型），无需等待新版本通用VLM出现后再做医学场景后训练。

　　这种“原生”的多模态整合方式，相比于仅仅微调通用VLM的方法，更能保证数据使用的透明性，并强化领域特定的推理能力，是构建可靠临床AI系统的关键。

　　处理大规模医学数据，尤其是包含大量切片或帧的3D体积和视频数据，对计算资源提出了极高要求。

　　针对3D和视频数据中普遍存在的帧间/层间信息冗余问题，研究团队提出了“医学感知令牌压缩”策略。

　　该策略结合了平面内双线性插值降采样和平面间基于L1距离的冗余令牌剪枝(TokenPruning)，能够在几乎不损失模型性能的前提下，平均减少约55%的视觉令牌数量（如上图）。

　　这一显著的效率提升使得处理长达数小时的手术视频成为可能，并且极大地降低了模型推理时的内存和计算开销。

　　第一阶段，冻结LLM，仅训练视觉编码器和Projector，利用海量的2D图像-短文本对建立基础的视觉-语言对齐。

　　第二阶段，进行持续预训练，引入长文本描述、通用数据，并解冻所有模型参数，旨在注入丰富的医学知识和通用视觉文本理解能力。

　　第三阶段，进行混合模态指令微调，引入包括3D、视频、多图、图文交错在内的多样化下游任务数据，全面提升模型的指令遵循和复杂推理能力。

　　这种“先易后难、逐步深入”的策略，充分利用了相对丰富的2D数据资源来构建强大的视觉表征基础，使得模型在后续面对数据量相对较少的3D和视频任务时能更快、更好地学习。

　　即使是规模最大的32B参数模型，其总训练耗时也仅约4万个A100GPU小时，而7B模型更是只需约4千GPU小时。

　　这意味着，在现实可及的计算预算内，即可开发出具备SOTA性能的通用医学VLM，极大地提高了先进医学AI技术的可及性。

　　为了全面评估Hulu-Med的能力，研究团队在30个公开的医学基准测试上进行了广泛严谨的评估。

　　这些基准从基础的文本问答、图像分类，到复杂的视觉问答（2D、3D、视频）、医学报告生成（2D、3D），再到需要深度临床知识和推理能力的多语言理解、罕见病诊断、多轮临床对话等各种任务类型，并同时考察了模型在分布内（ID）和分布外（OOD）任务上的泛化能力。

　　最终Hulu-Med的表现令人瞩目，如上图所示，在参与比较的30项基准中，Hulu-Med在其中27项均超越了现有的开源医学或通用VLM。

　　而且媲美甚至超越顶尖闭源系统，在其中16项基准中的性能优于强大的闭源模型GPT-4o。

　　尤其值得一提的是，尽管Hulu-Med是一个视觉语言模型，但在OpenAI最新提出的纯文本临床对话基准HealthBench上，其性能超越了GPT-4o，并与GPT-4.1持平，充分证明了其强大的文本理解和推理能力并未因多模态训练而削弱。

　　此外，无论是在2D医学VQA和报告生成（在体现临床价值的RaTEScore指标上尤为突出），还是在需要空间理解的3DVQA和报告生成（优于专门的3D模型），抑或是需要时序推理的视频理解任务（如MedFrameQA和多种手术VQA），Hulu-Med均展现了领先或极具竞争力的性能。

　　在模拟真实临床挑战的多语言医学理解（MMedBench，六种语言）、罕见病诊断（RareBench）和多轮临床安全对话（HealthBench）等任务上，Hulu-Med同样表现出色。

　　尤其在结合思维链（CoT）提示时，其在多语言和罕见病诊断上的表现超越了包括GPT-4在内的多个顶尖闭源模型，展现了其巨大的临床应用潜力（如上图）。

　　Hulu-Med的成功验证了通过系统性整合公开数据、采用统一高效架构、坚持完全开放透明的路径，是可以构建出世界一流的通用医学AI模型的。

　　尽管取得了显著进展，Hulu-Med仍有很多提升空间，未来的研究方向包括：

　　融合更多模态数据：将基因组学、蛋白质组学等多尺度生物数据融入模型，实现从宏观影像到微观分子层面的真正多尺度疾病理解，迈向预测性和个性化医疗。

　　持续扩大开放数据规模：进一步聚合全球范围内更多样化的公开医学数据集，有望继续提升模型的性能和泛化能力。

　　深化临床推理能力：利用更大规模、更多样化的思维链数据，结合强化学习等先进训练范式，进一步优化模型的临床逻辑推理、可解释性和可靠性。

　　推动临床验证与整合：将Hulu-Med作为基础，与专科模型或多智能体系统结合，在真实的临床工作流中进行验证，确保其安全性和有效性。

　　总的来说，Hulu-Med代表了迈向整体化、透明化、高效能医学AI的重要一步，它不仅是一个高性能的模型，更是一个开源开放的研究起点和一份详尽的技术蓝图。

　　研究团队坚信，开放与协作是推动医学AI领域可持续发展的关键，Hulu-Med在GitHub和HuggingFace等开源社区获得的初步成功，也印证了这一理念的价值。

　　同时，该团队也诚挚邀请相关领域的研究者、开发者和临床医生，利用Hulu-Med等开放模型和数据资源，共同探索、构建和验证下一代精准、普惠、个性化的医学人工智能系统！

　　原标题：《一个模型读懂所有医学数据，Hulu-Med探索医学大模型开源新范式浙大x上交xUIUC》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

凯发集团官网

一个模型读懂所有医学数据Hulu-Med探索医学大模型开源新范式 浙大x上交xUIUC

一个模型读懂所有医学数据Hulu-Med探索医学大模型开源新范式浙大x上交xUIUC