2023年AI与开源进展总结:来自LightningAI首席AI科学家Sebastian Raschka的2023年年度AI发展总结
Sebastian Raschka博士是一位深度学习和人工智能研究员、程序员、作者和教育者。他曾是威斯康星大学麦迪逊分校的统计学助理教授,专注于机器学习和深度学习研究。然而,他在2023年辞职,全职投入到他在2022年加入的Lightning AI创业公司,担任首席AI教育者。
Raschka博士对开源软件充满热情,是一位积极的贡献者。他是《Python Machine Learning》和《Machine Learning with PyTorch and Scikit-Learn》等畅销书的作者3。此外,他还撰写了Ahead of AI,这是一份定期报道最新深度学习和AI研究的文章。
本文是Sebastian Raschka博士最新的2023年AI进展总结的翻译,大家参考。原文:https://magazine.sebastianraschka.com/p/ai-and-open-source-in-2023
我们正在缓慢但稳定地走向2023年的尾声。我认为现在是写一篇关于2023年AI研究、产业和开源领域主要发展的简短回顾的好时机。
当然,这篇文章只是对我心中最为相关的主题的一个简短概览。我建议查看档案中的每月研究亮点和AI前沿#4-12期刊,以获取更多信息。
继续2022年的趋势
今年,在AI产品方面,我们尚未看到任何根本性的新技术或方法。相反,今年主要是加倍关注去年已经证明有效的内容:
ChatGPT的GPT 3.5升级到了GPT 4
DALL-E 2升级到了DALL-E 3
Stable Diffusion 2.0升级到了Stable Diffusion XL
…
有趣的传闻是,GPT-4是一个由专家混合(MoE)模型组成,包含16个子模块。据说这16个子模块中的每一个都有1110亿个参数(作为参考,GPT-3有1750亿个参数)。

GPT-4采用MoE模型的事实可能是真的,尽管我们现在还不能确定。一个趋势是,产业研究者在他们的论文中分享的信息比过去越来越少。例如,尽管GPT-1、GPT-2、GPT-3和InstructGPT的论文都披露了架构和训练细节,但GPT-4的架构却是一个严格保密的秘密。再举一个例子:虽然Meta AI的第一篇Llama论文详细描述了用于训练模型的数据集,但Llama 2模型却将这些信息保密。关于这一点,斯坦福大学上周推出了“基础模型透明度指数”,根据该指数,Llama 2位于54%的领先地位,而GPT-4位列第三,为48%。
当然,要求公司分享他们的商业机密可能是不合理的。但这仍然是一个值得提及的有趣趋势,因为看起来我们在2024年还会继续这种做法。
关于扩大规模,今年的另一个趋势是增加输入上下文的长度。例如,GPT-4的竞争对手Claude 2的主要卖点之一是它支持多达100k的输入标记(GPT-4目前仅限于32k标记),这使得它特别适合生成长文档的摘要。它支持PDF输入的事实使其在实际应用中尤其有用。

开源和研究趋势
据我回忆,去年开源社区主要关注潜在扩散模型(如Stable Diffusion)和其他计算机视觉模型。扩散模型和计算机视觉仍然与往常一样相关。然而,今年开源和研究社区更大的焦点是LLMs。
开源(或者更确切地说,公开可用)的LLMs的爆发部分归功于Meta发布的第一个预训练的Llama模型,尽管其许可证有限制,但它启发了许多研究者和从业者:例如Alpaca、Vicuna、Llama-Adapter、Lit-Llama等。
几个月后,Llama 2,在我更详细地在《AI前沿#11:新的基础模型》中介绍过,大体上取代了Llama 1,成为一个更有能力的基础模型,并且还带有细调过的版本。
然而,大多数开源的LLMs仍然只是纯文本模型,尽管如Llama-Adapter v1和Llama-Adapter v2的细调方法承诺将现有的LLMs转化为多模态的LLMs。

值得注意的例外是Fuyu-8B模型,它在几天前的10月17日刚刚发布。

值得注意的是,Fuyu将输入片段直接传递到线性投影(或嵌入层)中,以学习其自己的图像片段嵌入,而不是依赖于其他模型和方法所使用的额外预训练的图像编码器(例如LLaVA和MiniGPT-V)。这大大简化了架构和训练设置。
除了上面提到的少数多模态尝试外,最大的研究重点仍然是在1000亿参数范围内,用更小的模型匹配GPT-4的文本性能。这可能是由于硬件资源成本和限制、有限的数据访问以及对较短的开发时间的要求(由于出版的压力,大多数研究者不能花费几年时间训练一个模型)。
然而,开源LLMs的下一个突破并不必来自于将模型扩展到更大的尺寸。将会很有趣地看到,是否MoE方法可以在2024年把开源模型提升到新的高度。
有趣的是,在研究前沿,我们在2023年还看到了一些与基于变压器的LLMs不同的选择,包括递归的RWKV LLM和卷积的Hyena LLM,目的是提高效率。然而,基于变压器的LLMs仍然是当前的技术水平。

总体来说,开源在今年非常活跃,取得了许多突破和进步。这是一个整体大于部分总和的领域。因此,我很遗憾有些人正在积极地反对开源AI。但我希望我们能够保持积极的势头,构建更高效的解决方案和替代方案,而不是仅仅依赖大型科技公司发布的像ChatGPT这样的产品。
为了以一个积极的方式结束这一部分,感谢开源和研究社区,我们看到了小型且高效的模型,比如我们可以在单个GPU上运行的1.3B参数的phi1.5、7B的Mistral和7B的Zephyr,它们接近于大型专有模型的性能,这是一个令人兴奋的趋势,我希望它会在2024年继续。
生产力的承诺
我认为开源AI是发展高效和定制LLM解决方案的主要途径,包括基于我们的个人或领域特定数据为各种应用进行细调的LLM。如果你在社交媒体上关注我,你可能已经看到我谈论并尝试使用Lit-GPT,这是一个我积极贡献的LLM开源仓库。但是,尽管我是开源的大支持者,我也非常喜欢设计精良的产品。
自从ChatGPT发布以来,我们已经看到LLM被用于几乎所有事情。读这篇文章的人可能已经使用过ChatGPT,所以我不需要解释LLM确实可以用于某些任务。
关键是我们要为“正确”的事情使用它们。例如,我可能不想询问ChatGPT关于我最喜欢的杂货店的营业时间。但是,我最喜欢的用途之一是修正我的语法或帮助我重新组织我的句子和段落。从更大的角度看,LLM背后的是增加生产力的承诺,你可能也已经有所体验。
除了常规文本的LLM,Microsoft和GitHub的Copilot编码助手也正在成熟,越来越多的人开始使用它。今年早些时候,Ark-Invest的一份报告估计,编码助手减少了完成编码任务的时间约55%。

是否真的减少了55%仍然有待商榷,但如果你之前使用过编码助手,你会注意到它们确实非常有用,可以简化繁琐的编码相关任务。
有一点是肯定的:编码助手已经来到了我们身边,并且它们随着时间的推移可能只会变得更好。它们会取代人类程序员吗?我希望不会。但它们无疑会使现有的程序员更加高效。
这对StackOverflow意味着什么?AI现状报告中包括了一个图表,显示了StackOverflow与GitHub的网站流量对比,这可能与Copilot的日益普及有关。然而,我相信即使是ChatGPT/GPT-4在编码相关任务上也已经非常有帮助。我怀疑ChatGPT也部分(甚至很大程度上)导致了StackOverflow流量的下降。

AI问题
幻觉
与2022年一样,LLM仍然面临同样的问题:它们可能产生有害的内容并倾向于产生幻觉。在整个年度中,我讨论了几种解决此问题的方法,包括使用人类反馈的强化学习(RLHF)和Nvidia的NeMO Guardrails。但是,这些方法仍然是权宜之计,要么过于严格,要么不够严格。
到目前为止,还没有任何方法(或者对方法的想法)可以100%可靠地解决这个问题,并且不减少LLM的积极能力。在我看来,这一切都取决于我们如何使用LLM:不要用LLM做所有事情,对于数学问题使用计算器,把LLM看作是你的写作伙伴并仔细检查其输出等等。
此外,对于特定的商业应用,探索检索增强型系统(RAG)可能是一种折中方案。在RAG中,我们从文档库中检索相关的文档段落,然后根据检索到的内容决定基于LLM的文本生成。这种方法使模型能够从数据库和文档中提取外部信息,而不是记住所有知识。

版权问题
更迫切的问题是围绕AI的版权辩论。根据维基百科,“尚不完全了解在受版权保护的材料上训练的LLM的版权状态。”总的来说,似乎许多规则仍在起草和修改中。我希望这些规则,无论它们是什么,都能明确,以便AI研究人员和从业者可以相应地调整和采取行动。(我在这里写了更多关于AI和版权辩论的内容。)
评估
困扰学术研究的一个问题是,流行的基准测试和排行榜被认为是半损坏的,因为测试集可能已经泄露,并已成为LLM的训练数据。如我在之前的文章中所讨论的,这已经成为phi-1.5和Mistral的关注点。
一种受欢迎但不太容易的方法来自动化LLM的评估是询问人们的偏好。或者,许多论文也依赖GPT-4作为第二好的方法。

收入
生成性AI目前仍处于探索阶段。当然,我们都经历过文本和图像生成器对特定应用有帮助的情况。但是,由于昂贵的托管和运行时成本,它们是否能为公司创造正向的现金流仍然是一个备受争议的话题。例如,有报道称OpenAI去年亏损了5.4亿美元。另一方面,最近的报道称OpenAI现在每月赚取8000万美元,这可能会抵消或超过其运营成本。
假图像
与生成性AI相关的一个较大的问题,目前在社交媒体平台上尤为明显,是制作假图像和视频。假图像和视频一直是一个问题,类似于Photoshop这样的软件如何降低了制作假内容的入门门槛,AI将这一点提高到了新的水平。
其他AI系统旨在检测AI生成的内容,但这些系统对于文本、图像或视频都不可靠。某种程度上遏制和对抗这些问题的唯一方法是依赖值得信赖的专家。与我们不从互联网上的随机论坛或网站接受医学或法律建议一样,我们可能也不应该在不进行双重检查的情况下信任互联网上的随机帐户上的图像和视频。
数据集瓶颈
与前面提到的版权辩论相关,许多公司(包括Twitter/X和Reddit)关闭了他们的免费API访问权限,以增加收入,但也是为了防止爬虫从平台上收集AI培训数据。
我看到了许多专门从事数据集相关任务的公司的广告。尽管AI可能遗憾地导致某些工作角色的自动化,但它似乎同时正在创造新的机会。
为开源LLM进展做出贡献的最佳方式之一可能是构建一个众包数据集的平台。我说的是编写、收集和策划有明确许可用于LLM训练的数据集。
RLHF是锦上添花吗?
当Llama 2模型套件发布时,我很高兴看到它包括了为聊天微调的模型。使用人类反馈的强化学习(RLHF),Meta AI增加了他们模型的有用性和无害性 — 如果你对更详细的解释感兴趣,我在这里有一篇专门关于RLHF的文章。

我一直认为RLHF是一个非常有趣且有前途的方法,但除了InstructGPT、ChatGPT和Llama 2之外,它并没有被广泛使用。因此,当我发现一个关于RLHF日益受欢迎的图表时,我感到很惊讶。我当然没料到,因为它仍然没有被广泛使用。

由于RLHF有些复杂且难以实施,大多数开源项目仍然专注于对指令微调进行有监督的微调。
RLHF的一个近期替代方案是直接偏好优化(Direct Preference Optimization, DPO)。在相应的论文中,研究者们展示了在RLHF中拟合奖励模型的交叉熵损失可以直接用于微调LLM。根据他们的基准测试,使用DPO更为高效,而且在响应质量上经常被优先于RLHF/PPO。

尽管DPO似乎还没有被广泛使用,但令我兴奋的是,两周前,我们通过Lewis Tunstall和他的同事们得到了第一个公开可用的通过DPO训练的LLM,这似乎超过了通过RLHF训练的更大的Llama-2 70b聊天模型的性能:

然而,值得注意的是,RLHF并不是明确用来优化基准性能的;它的主要优化目标是根据人类用户评估的“有用性”和“无害性”,这在这里并没有反映出来。
分类怎么样?
上周,我在几周前的Packt生成性AI会议上发表了演讲,强调文本模型最突出的使用场景之一仍然是分类。例如,考虑常见的任务,如电子邮件垃圾邮件分类、文档分类、分类客户评论和在社交媒体上标记有毒言论。
根据我的经验,使用“小”LLM,如DistilBERT,并仅使用单个GPU,可以获得非常好的分类性能。

我在今年的《深度学习基础》课程的第8单元中发布了使用小LLM进行文本分类的练习,其中Sylvain Payot甚至通过微调一个现成的Roberta模型,在IMDB电影评论数据集上实现了>96%的预测准确率。 (作为参考,我在该数据集上训练的最佳经典机器学习基于词袋的模型仅达到89%的准确率)。

现在,话虽如此,我还没有看到关于LLM用于分类的任何新的重要工作或趋势。大多数从业者仍然使用基于BERT的编码器模型或像2022年推出的FLAN-T5这样的编码器-解码器模型。这可能是因为这些架构仍然令人惊讶地工作得非常好并令人满意。
关于表格数据的状况
在2022年,我写了《深度学习在表格数据上的简短历史》,涵盖了许多有趣的基于深度学习的表格数据方法。然而,与上面提到的用于分类的LLM相似,表格数据集方面也没有那么多的发展,或者我只是太忙而没有注意到。

在2022年,Grinsztajn等人发表了一篇论文,探讨了为什么基于树的模型在表格数据上仍然超越深度学习?我相信基于树的模型(随机森林和XGBoost)在小型和中型数据集(1万个训练样例)上超过深度学习方法的主要结论仍然成立。
值得注意的是,经过近10年的发展,XGBoost发布了一个大的2.0版本,该版本具有更好的内存效率、支持不适合内存的大数据集、多目标树等特性。
2023年的计算机视觉
尽管今年的焦点非常集中在LLM上,但在计算机视觉方面也有许多发展。由于这篇文章已经很长了,我不会介绍最新的计算机视觉研究。但是,我有一篇独立的文章,标题为《2023年计算机视觉研究现状》,该文章是我在2023年夏天参加CVPR 2023时的总结:https://magazine.sebastianraschka.com/p/ahead-of-ai-10-state-of-computer
除了研究,与计算机视觉相关的AI已经激发了新的产品和体验,这些产品和体验在今年已经逐渐成熟。
例如,当我今年夏天参加了在奥斯汀举行的SciPy会议时,我看到了第一辆真正的无人驾驶的Waymo汽车在街上行驶。
在电影院的一次旅行中,我还看到AI在电影行业中的使用变得越来越受欢迎。最近的一个例子是在《印第安纳琼斯5》中对哈里森·福特进行”年轻化”处理,其中电影制片人使用演员的旧档案资料训练了一个AI。
然后,有一些生成性AI能力现在已经被牢固地集成到流行的软件产品中。一个最近的例子是Adobe的Firefly 2。
对2024年的预测
预测总是最具推测性和挑战性的部分。去年,我预测我们将在文本或代码之外的领域看到更多LLM的应用。其中一个例子是HyenaDNA,一个用于DNA的LLM。另一个是Geneformer,这是一个在3000万单细胞转录组上预先训练的transformer,旨在促进网络生物学中的预测。
到2024年,LLM将越来越多地改变计算机科学之外的STEM研究。
另一个新兴趋势是各种公司开发定制的AI芯片,这是由于高需求导致的GPU短缺所驱动的。谷歌将加倍投入其TPU硬件,亚马逊已经推出了其Trainium芯片,AMD可能正在缩小与NVIDIA的差距。现在,微软和OpenAI也开始开发他们自己的定制AI芯片。挑战将是确保主要的深度学习框架内对这些硬件的完整和稳健支持。
在开源前线,我们仍然落后于最大的封闭源模型。目前,最大的公开可用模型是Falcon 180B。这可能不太令人担忧,因为大多数人 anyway都无法访问处理这些模型所需的广泛硬件资源。与其说我更期待更大的模型,不如说我更期待看到更多的由多个较小的子模块组成的开源MoE模型,我在本文前面讨论过这个问题。
我也对目睹在众包数据集上的增加的努力以及DPO作为最先进的开源模型中有监督微调替代品的崛起感到乐观。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
