近期ChatGPT Plus用户发现GPT-4性能大幅下降!GPT-4性能下降的现象和原因总结
最近很多ChatGPT Plus用户发现GPT-4的版本有了较大的更新,一个比较吸引人的事情是大多数更新后的GPT-4的知识库已经更新到2023年4月份,而且响应速度大幅提高。不过,令人伤心的是,很多用户发现更新后的GPT-4性能大幅下降,表现在指令遵从、记忆、理解等方面。

GPT-4性能下降后的具体表现
在ChatGPT、OpenAI相关的Reddit社区中,出现了大量抱怨GPT-4性能下降的内容。其中吐槽GPT-4的记忆下降、指令遵从变差等。
下图是社区中关于GPT-4性能下降的讨论帖子和投票结果。


DataLearnerAI研发人员也有类似结论,效果体验变差了不少,而本文总结一下网友发现的GPT-4性能下降的现象。
记忆力下降问题
用户提到,在最近的更新后,GPT-4在持续对话中的记忆能力明显下降,无法像以前一样记住前文,导致无法在多轮对话中保持连贯性。
发现这个现象有许多证据,首先是之前有人的历史对话中的窗口长度从8K变成了2K,然后为了验证它连续对话了很多次,然后问第一个指令是啥,结果发现GPT-4无法记住此前能记住的指令。
还有用户发现,之前,用户可以切换话题然后回到原来的话题,GPT-4能保留上下文,但现在它甚至忘记了上一次回复中的代码片段。
创造性变差
有用户发现在进行非押韵诗歌的创作测试时,用户发现GPT-4现在像GPT-3.5一样只能创作出押韵的诗歌,失去了之前版本的创造性。也就是说让GPT-4创作非押韵的诗歌,它的返回结果却和GPT-3.5一样是押韵的结果。这在之前的版本中并不是这样的。
还有用户发现GPT-4创造力下降,输出内容回归陈词滥调和老套路,尤其是在创意写作方面。
代码生成能力下降
使用GPT-4编程的用户报告说,模型开始提供错误的代码,质量显著下降,即使是简单的字符串替换任务也无法正确完成。在提供代码解决方案时,模型似乎故意提供“略微错误”的答案,使用户感到困惑和不满。
理解能力下降
像字符串替换或日期时间解析这样过去执行良好的任务,现在容易出错。
一位用户提到,用一个懒散的提示模型会失败,但是用一个清晰、结构化的提示,它的表现就如预期那样。
有观察表明,模型基于过度微调更改答案,而不是根据其原始训练数据提供响应。
总结一下,根据用户的描述,当前GPT-4的记忆力明显下降,在长上下文方面表现很差,远低于8K的水平。而这个也有很明显的证据,根据抓包结果显示,当前GPT-4和DALL·E3的模型长度被改为4096,由于系统prompt的长度是2097,因此留给用户使用的输出长度也就2000tokens左右了。但是browse with bing
这个模型的长度依然是8192个tokens。还有“Advanced Data Analysis”的水平依然还不错。
此外,DataLearner的内部测试也发现,如果你提问相同的或者类似的问题,做一点小的改变,但是模型可能会复制之前的回答,即使你新建一个窗口。但是当你新建窗口切换模型版本,例如变成带Plugin的模型之后,模型才会有不同的输出结果。
造成GPT-4性能下降的原因
目前,官方没有任何说明造成GPT-4性能下降的原因是什么。但是,有一些用户的猜测。
有人提出 OpenAI 可能正在使用一种节省成本的策略,通过部署一个模型,在感知到提示的复杂性基础上在 GPT-4 和 GPT-3.5 之间切换。
也有人推测 OpenAI 的基础设施升级可能暂时影响模型的性能,在新服务器准备好并通过测试之前,可能会将用户临时迁移到性能较低的备用服务器上。
还有一种说法是,当前的GPT-4可能已经切换到了GPT-4-Turbo版本,而未来这个版本可能开放给普通用户(这一点存疑,由于Team计划,参考最新OpenAI的API透露,ChatGPT Plus外还有升级版的订阅计划:ChatGPT Team!25美元一个月!Plus用户可能没有GPT-4-32K了!,Team用户25美元才能使用GPT-4-32K,plus用户估计未来也不会有32K版本的GPT-4使用,这意味着不太可能让这个版本下放给普通免费用户)。
此外,大多数猜测认为这是与发布的GPT-4(All Tools)有关系,因为这个版本需要GPT-4-32K才能运行,这意味着4倍的显存、和额外的其它系统prompt,这些调整导致现有的GPT-4的能力大幅下降。
总之,官方没有给出任何模型变化的方向和原因,这也引起了很多用户的愤怒。因为当前OpenAI的不透明,即使他们调低性能,甚至降级模型,用户其实也是不知道的。
GPT-4性能下降后的替代方案
根据目前的讨论,GPT-4性能下降主要是网页版本,如果你使用API版本则不会有问题。另外,如果你是很早之前注册的用户,可以使用GPT-4-0314版本,那是最强的GPT-4版本。而如果你是比较迟注册的接口,可以考虑使用OpenRouter,它们目前提供GPT-4-0314版本,价格一样。
关于OpenRouter参考:OpenRouterAI:一个提供目前最优秀大模型API的网站,支持GPT-4 32k和Claude v2接口!
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
