Sh

Shap-E

基础大模型

Shap-E

发布时间: 2023-05-03

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2023-05-03

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Shap-E模型在各大评测榜单的评分

发布机构

模型介绍

Shap·E,这个条件生成模型被设计用于生成三维资产。与传统模型只产生单一输出表示不同,Shap·E生成隐式函数的参数。这些函数可以呈现为纹理网格或神经辐射场(NeRF),从而实现多功能和逼真的三维资产生成。



在训练Shap·E时,研究人员首先训练了一个编码器。编码器将三维资产作为输入,并将它们映射到隐式函数的参数中。这种映射使模型能够彻底学习三维资产的基本表示。接下来,使用编码器的输出训练了一个条件扩散模型。条件扩散模型学习给定输入数据的隐式函数参数的条件分布,从而通过从学习的分布中进行采样生成多样化和复杂的三维资产。扩散模型是使用大型成对三维资产及其对应的文本描述数据集进行训练的。


Shap·E涉及三维表示的隐式神经表示(INRs)。隐式神经表示通过将三维坐标映射到位置特定信息(如密度和颜色)来编码三维资产,以表示三维资产。它们通过捕捉三维资产的详细几何属性提供了一个多功能和灵活的框架。团队讨论过的两种类型的INRs是:


  • 神经辐射场(Neural Radiance Field,NeRF)——NeRF通过将坐标和视角方向映射到密度和RGB颜色来表示3D场景。NeRF可以从任意视角进行渲染,从而实现场景的逼真和高保真度渲染,并且可以训练以匹配真实渲染结果。
  • DMTet及其扩展GET3D——这些内隐神经表示(INRs)已被用来表示带纹理的3D网格,通过将坐标映射到颜色、有符号距离和顶点偏移来实现。通过利用这些函数,可以以可微分的方式构建3D三角形网格。


研究团队分享了Shap·E的一些结果示例,包括文本提示的3D结果,例如食物碗、企鹅、体素化的狗、篝火、长得像牛油果的椅子等等。使用Shap·E训练的模型展示了出色的性能,可以在几秒钟内生成高质量的输出。为了评估,Shap·E与另一个生成模型Point·E进行了比较,后者生成点云的显式表示。尽管建模了更高维度和多重表示输出空间,但Shap·E在比较中显示出更快的收敛速度,并实现了可比较或更好的样本质量。


总之,Shap·E是一个有效且高效的3D资产生成模型。它似乎很有前途,并是生成式人工智能贡献的重要补充。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat