MedGemma 1.5
MedGemma 1.5 4B
模型参数
40.0亿
上下文长度
128K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
128K tokens
最大输出长度
8192 tokens
模型类型
多模态大模型
发布时间
2026-01-13
模型文件大小
暂无数据
MoE架构
是
总参数 / 激活参数
40.0 亿 / 暂无数据
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)
开源和体验地址
官方介绍与博客
官方论文
暂无官方论文
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
3/5
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
Google Research
查看发布机构详情 模型解读
MedGemma 是 Google 基于 Gemma 3 架构开发的医疗专用模型系列,2025 年首次推出时提供了 4B 多模态版本和 27B 文本版本,在胸部 X 光、皮肤科、眼科、病理切片等多个医疗场景中表现良好,下载量达到数百万级别,并在 Hugging Face 上衍生出数百个社区变体。
2026 年 1 月 13 日,Google Research 正式发布了 MedGemma 1.5(目前主要为 4B 多模态指令微调版本),重点提升了对更高维度、更复杂医疗影像的理解能力,同时同日发布了医疗语音转文字模型 MedASR。
MedGemma 1.5 的核心亮点
- 首次开源支持 3D CT、MRI 和全切片病理影像
这是目前公开可用的首个开源多模态大模型,能够原生处理 CT 体积数据、MRI 序列以及数字病理全切片图像(whole-slide histopathology)。
在多项基准测试中,相比 MedGemma 1 版本有明显提升: - 保持轻量级设计
核心参数规模为 4B,可在单张消费级或专业级 GPU 上运行(量化后更易部署),适合研究者、初创团队以及医院内部开发使用。 - 与 MedASR 结合使用
同日发布的 MedASR 是专为医疗场景优化的语音转文字模型,在包含大量医学术语的对话(如医生讨论胸片)中,字错率低至 5.2%,明显低于 OpenAI Whisper large-v3 的 12.5%。
MedASR 的转录结果可直接作为 MedGemma 的输入提示,形成“语音输入 → 影像理解 → 报告生成”的完整流程。 - 开源与商用许可
典型应用场景
- 放射科报告自动生成与初步筛查(支持多张影像的纵向对比)
- 病理科全切片图像描述与关键区域定位
- 多模态临床问答(上传 CT + 症状描述 → 模型提供分析建议)
- 电子病历结合影像的综合总结
- 远程医疗或患者端初步分诊(结合 MedASR 语音输入)
MedGemma 1.5 并非现成的临床诊断工具,所有输出必须由专业医师独立验证,并结合临床背景使用。模型的定位是“开发者起点模型”,鼓励在其基础上进行进一步的领域微调、偏见评估、本地隐私数据适配等工作。
短短一年多时间,Google 将 MedGemma 从支持 2D 影像扩展到处理 3D CT/MRI + 全切片病理,并且保持开源,这为医疗 AI 社区提供了更多开发可能性。
如果你是医疗 AI 开发者、放射科医生、病理学家,或对开源医疗大模型感兴趣,现在正是开始探索的好时机——模型已就位,等待进一步的 fine-tune 与应用开发。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
