新模型发布:Gemma 3 270M,为特定任务打造的高效工具
298 阅读
谷歌开源了其Gemma 3模型系列的新成员——Gemma 3 270M。该模型的设计理念并非追求通用性和大规模,而是专注于为定义明确的特定任务提供一个高效、紧凑的解决方案。其核心价值在于通过微调(fine-tuning)来执行专门化任务。
核心技术规格
Gemma 3 270M是一个拥有2.7亿参数的紧凑型模型。 其架构特点包括:
- 参数构成:总参数为2.7亿,其中1亿用于Transformer模块,另外1.7亿用于嵌入层。
- 大词汇表:该模型拥有一个256k词元的大词汇表,这有助于更好地处理和理解特定领域或罕见的词元,为后续的微调提供了良好的基础。
