DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

OpenAI发布新一代向量大模型,接口已经更新到text-embedding-3-large,embedding长度升级,价格最高下降5倍!

2024/01/26 14:40:34
2,685 阅读
OpenAItext-embedding-3向量大模型

由于大语言模型输入长度的限制,基于外挂知识库的检索生产(Retrieval Augmented Generation,RAG)是大模型应用中非常流行的技术。检索增强生成中的一个核心步骤是检索。而基于向量相似性检索是这类系统中最重要的技术之一。决定向量检索准确性的核心是向量大模型的能力,即文本转成embedding向量是否准确。今天,OpenAI宣布了他们第三代向量大模型text-embedding,模型能力增强的同时价格下降!

  • OpenAI第三代向量大模型text-embedding-3简介
  • OpenAI不同的向量大模型对比
  • 第三代OpenAI向量大模型text-embedding-3与其它模型对比

OpenAI第三代向量大模型text-embedding-3简介

embedding向量是一个数字组成的向量,可以表示自然语言或者代码的语义。基于这个向量可以得出不同文本或者代码内容之间的相似性,在知识检索中用处很高。本次OpenAI发布的向量大模型包括2个版本,分别是text-embedding-3-small和text-embedding-3-large。

其中,前者是规模较小但是效率很高的模型,前任模型是2022年12月发布的text-embedding-ada-002。后者是规模更大的版本,最高支持3072维度的向量!这是目前OpenAI最强大的向量大模型,比前代的模型强很多,在MIRACL和MTEB上的得分都有提升。

OpenAI不同的向量大模型对比

当前OpenAI不同向量大模型的对比:

| 模型名称 | 发布日期 | 输入维度 | 输出向量维度 | MIRACL 平均分 | MTEB平均分 | 价格 | | ------------ | ------------ | ------------ | ------------ | | text-embedding-ada-002 | 2022年12月 | 8191 | 1536| 31.4 | 61.0|$0.0001 /1K tokens | | text-embedding-3-small | 2024年1月25日 | 8191 | 512和1536可选 | 44 | 512得分61.6
1536得分62.3 | $0.00002 /1K tokens | | text-embedding-3-large | 2024年1月25日 | 8191 | 256/1024/3072可选 | 54.9 | 256得分62.0
1024得分64.1
3072得分64.6 | $0.00013 / 1k tokens |

从上表可以看出,为了权衡生成速度和准确性,OpenAI提供的新的向量大模型text-embedding-3支持dimensions参数,可以选择生成不同长度的向量。而更长的向量效果更好,但是成本更高,速度更慢。从价格上来说,text-embedding-3-small和前一代的向量大模型维度一致,效果略强,不过价格下降5倍!而更大版本的向量模型价格也比前代模型也有下降,下降约45%左右!

这一次,OpenAI向量大模型最大的特点应该就是可以支持输出不同维度的结果并且价格下调,开发者的选择更加丰富。

第三代OpenAI向量大模型text-embedding-3与其它模型对比

不过,从MTEB评分结果看,尽管text-embedding-3-large最高已经达到64.6分,但是MTEB排行榜上依然只能拍第四。目前前三名如下:

排名模型名称模型大小(GB)输出向量维度输入长度MTEB平均分
1voyage-lite-02-instruct/1024400067.13
2e5-mistral-7b-instruct14.2240963276866.63
3UAE-Large-V11.34102451264.64

不过,这些模型的使用成本可能比OpenAI的略高。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • OpenAI 发布 GPT-5.5:代号"Spud",Agent 能力明显提升,API 因安全审查暂缓开放
  • OpenAI发布Frontier:一个企业级的Agent构建平台,把 AI 变成企业里的“数字同事”,那么OpenAI Frontier能做什么?
  • GPT-5.1 有哪些提升?来自 OpenAI 官方 AMA 的能力、推理模式、安全策略全解读
  • OpenAI发布GPT-5.1:围绕“对话体验、一致性、任务适配性”进行的系统化优化的实质性升级!重回写作排名第一!
  • 自己制作电影不是梦,视频生成大模型的巨大进步!OpenAI发布第二代视频生成大模型Sora2:物理规律符合率达到88%,可以同步生成音频!物理真实感与声音控制全面突破
  • OpenAI收入大揭秘:2024年收入40亿美金,2030年预计达到2000亿,年均复合增长超90%!ChatGPT占比将逐年下降!
  • 语音大模型正式进入Voice Agent时代!OpenAI发布GPT Realtime模型,可以直接调用接口和工具进行实时语音对话!
  • OpenAI发布GPT-5:这是一个包含实时路由的AI系统,而不仅仅是一个模型

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署