
机构介绍
TIGER-Lab是滑铁卢大学的一个研究实验室,全称为Text and Image GEnerative Research Lab。该实验室由Wenhu Chen教授领导,隶属于Vector Institute for Artificial Intelligence和Waterloo NLP Group。 实验室成立于2023年左右,专注于生成式人工智能领域,包括文本生成、图像和视频生成、多模态检索与 grounding、生成式AI的推理与规划能力提升、可控性研究以及评估方法开发。
实验室的使命是通过创新解决方案推进生成式AI的发展,使其更适用于社会转型数字内容创建。该实验室强调在基础模型的后训练阶段(如指令调优或偏好优化)提升能力,构建新型基准测试以评估模型进步,并增强生成模型的忠实度和可控性,以支持各种生成式AI应用。
实验室的主要研究方向包括:
- 基础模型改进:聚焦于指令调优、偏好优化和检索增强生成,旨在提升模型在推理、规划和结构知识 grounding 方面的能力。
- 基准测试开发:创建鲁棒的评估框架,用于测试多模态理解、长上下文学习和结构化输出生成。
- 生成模型增强:针对图像和视频扩散模型,改善视觉一致性、生成效率和编辑可控性,解决幻觉问题和不忠实生成。
- 多模态应用:探索文本-图像交互、视频编辑和多图像指令调优,以推动跨模态AI的发展。
TIGER-Lab的成员结构包括多名博士生、硕士生和实习生。目前有约8名博士生和硕士生,以及多名当前和前实习生,这些成员来自全球顶尖大学,如清华大学、浙江大学、香港科技大学和多伦多大学。 前成员已进入纽约大学、加州大学圣巴巴拉分校等机构的博士项目,或加入xAI、Modelbest等公司。
实验室的关键项目和出版物涵盖多个领域:
- 指令调优项目:MAmmoTH2 通过挖掘教育网页文档扩展指令数据到1000万示例,提升模型如Mistral或Llama-3的推理能力,并在数学和科学基准上达到领先水平。 MANTIS 通过多图像指令数据集调优,提升多模态任务性能,接近GPT-4V水平。 StructLM 构建结构知识 grounding 数据集,在八个相关数据集上实现领先。
- 基准测试项目:MMMU 是一个多学科多模态基准,包含多样视觉输入,用于测试专家级AGI的感知和推理能力。 MMLU-Pro 增强MMLU数据集,增加选项到10并引入大学级问题,作为Hugging Face LM排行榜官方基准。 其他包括VideoScore用于视频生成评估,以及长上下文LLM评估基准。
- 生成模型项目:ConsistI2V 通过扩张时序注意力层提升图像到视频生成的视觉一致性。 T2V-Turbo 使用混合一致性和强化学习训练,平衡视频生成效率和质量。 AnyV2V 提供无训练的视频到视频编辑框架,与图像编辑方法兼容。 其他如VLM2Vec将视觉语言模型转化为多模态嵌入任务,General-Reasoner推进LLM跨域推理。
TIGER-Lab通过开源项目在GitHub和Hugging Face上发布资源,包括53个仓库,如MMLU-Pro、VLM2Vec、ImagenHub和verl-tool,用于构建可信AI模型、标准化图像生成评估和支持多样工具使用。 该实验室与业界合作,参与Waterloo.AI倡议,并定期发布评测结果和研讨会,如关于扩散基视频编辑的讲座,以推动AI模型的可靠性和适用性。 未来计划继续聚焦指令调优、评估、检索增强和视觉内容生成,以扩展基础模型边界。
发布的大模型
暂无大模型数据