标签:R,A,G,,, ,词,嵌,入,,, ,重,排,序,,, ,检,索,评,估,,, ,M,R,R 时间:2023-11-05T21:54:43
在构建一个检索增强生成(RAG)流程时,从词嵌入模型到重排序模型,选择的组合对最终的检索性能影响重大。那么如何才能确定最佳的组合呢?我们应该依据哪些指标去评价它们?
本文将针对这些问题,结合一篇关于RAG模型的文章,讨论选取最优词嵌入与重排序模型的方法,并提出一些有关如何优化模型检索性能的见解。
在过程中,我们主要依据两个广泛接受的度量指标:命中率(Hit Rate)和平均倒数排名(Mean Reciprocal Rank,简称MRR)。首先让我们了解这两个指标的含义及其运作方式。
命中率计算正确答案在前k个检索结果中出现的查询比例。简单地说,它可以反映系统在前几个推测中获得正确结果的频率。
对于每个查询,MRR通过查看最高匹配相关文档的排名来评估系统的准确性。具体来说,它是所有查询倒数排名的平均值。倒数排名即相关文档的排名倒数,例如,如果第一个相关文档排名第一,那么倒数排名为1;如果排名第二,倒数排名为1/2,以此类推。
在明确了这两个指标之后,我们继续分析实验中使用的词嵌入与重排序模型,并考察它们的组合效果。
需要指出的是,这些实验结果是针对特定数据集和任务的,具体结果可能会受到数据特征、数据集大小等变量的影响。
下表展示了基于命中率和MRR的实验结果:
R语言数据库操作(不定时更新)
通过JRI实现java与R的连接、通信
Google发布Gemini Flash、Gemma 2
大模型评测数据集
OpenAI推出全新大语言模型评估工具Simple Evals!致力于消除不平等大模型测评!
StabilityAI开源30亿参数的指令编程大模型Stable Code Instruct 3B:一句话就可以生成网页了。
如何继续提高70亿参数规模的大模型能力?加州大学伯克利分校的童鞋利用GPT-4能力训练的Starling-7B评测超过了Claude2.0
真实案例测试KimiChat、通义千问、Claude3和GPT-4的3.5K长度的文档阅读理解能力
关于ChatGPT的100多项统计结果,包括最新使用人数、月活、收入等指标大统计
大模型测评
面壁智能开源迄今位置最强的20亿参数规模的大语言模型:MiniCPM-20B,评测结果超过阿里巴巴Qwen-1.8B,多项评测结果接近GPT-3和众多70亿参数规模大模型
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
使用R语言进行K-means聚类并分析结果
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
H5文件简介和使用
深度学习技巧之Early Stopping(早停法)
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介