GPT-4-Turbo的128K长度上下文性能如何?超过73K Tokens的数据支持依然不太好!
GPT-4 Turbo是OpenAI最新发布的号称性能超过当前GPT-4的模型。在新版本的ChatGPT中已经可以使用。而接口也在开放。除了速度和质量外,GPT-4 Turbo最吸引人的是支持128K超长上下文输入。但是,实际测试中GPT-4 Turbo对于超过73K tokens文档的理解能力急速下降。

GPT-4 Turbo简介
GPT-4 Turbo是OpenAI最新的开放模型,相比较此前的版本,GPT-4的知识已经更新到了2023年4月份,并且支持最高128K的超长上下文输入,约300页文本。不过,模型最大允许输出的长度是4096。
如何测试GPT-4对超长上下文理解能力的水平?
虽然GPT-4 Turbo宣称支持128K,但是有人实测结果并不理想。
前Salesforce工作人员做了这项测试,作者使用Paul Graham的论文作为上下文输入。Paul Graham是英国的计算机科学家,也是著名投资企业Y Combinator的创办者,它的论文超过了128K。
为了测试GPT-4 Turbo在超长上下文中准确定位信息的能力,作者随机在论文不同位置插入一句话“The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day.”。然后让GPT-4只能用这个论文作为回答的依据。
作者测试了很多次,这句话在文档的开头到结束不同位置,上下文长度从1K到128K不等。
作者做了15次实验,比较GPT-4 Turbo是否能准确回答结果。
GPT-4 Turbo对128超长上下文支持的实际结果
作者做了一张图描述这个结果:

图的横坐标是文档的长度,纵坐标是插入的文本在文档的位置。可以看到,在右上角区域模型表现效果很差,这些基本都是文档上半段,然后开始位置之后(7%位置之后)。但是如果这句话在文档下半段效果反而还可以。
最终的实验结论如下:
GPT-4的召回率在输入文档超过73K tokens之后下降明显,这意味着,如果你的文档超过了50万单词之后可能GPT-4并不能准确找到你问题的答案位置;
如果你的答案恰巧在文档7%-50%的位置,那么GPT-4能找到的概率最低,而50%的位置正好是文档中间。这也侧面验证了此前大模型的Lost in Middles特点(具体参考:大模型如何使用长上下文信息?斯坦福大学最新论文证明,你需要将重要的信息放在输入的开始或者结尾处!)
如果需要回忆的事实位于文档的开头,无论上下文长度如何,都能被回忆起。这可能意味着模型对文档开头的信息有更好的记忆能力。
根据这些发现,其实大家也可以理解。如果你想要准确的让模型理解你的问题,那么你的上下文必须短一点。也就是说,短一点的上下文可以提升GPT-4 Turbo的定位问题的能力。当然,如果文档很长,但是重要的信息在文档开始位置,或者是下半段,那么效果也都不错~
这项测试成本200美元,真不便宜~实验原文:https://x.com/GregKamradt/status/1722386725635580292?s=20
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
