标签:深度学习,强化学习,HelixNet,神经网络 时间:2023-11-04T18:45:49
在深度学习领域,研究人员一直在探索新的网络架构以提高模型的性能。最近,一种名为HelixNet的新架构引起了大家的关注。它由三个Mistral-7B LLM组成,包括一个演员(actor)、一个评论家(critic)和一个再生器(regenerator)。这种架构的灵感来自于强化学习算法中最突出的演员-评论家(actor-critic)架构。
在HelixNet中,演员LLM对给定的系统环境和问题产生初始响应。然后,评论家接收一个由系统环境、问题和响应组成的元组作为输入,并根据提供的答案对给定的系统环境和问题提供批评。评论家的任务并不是批评,而是提供智能的批评,以便可以修改/再生答案以更好地解决问题。最后,再生器接收一个由系统环境、问题、响应和批评组成的元组,并再生答案。
HelixNet的训练分为三个阶段:
第一阶段:演员网络通过监督细调(Supervised Fine-Tuning)在大约250K的高质量样本上进行训练。
第二阶段:评论家网络的训练过程包括使用演员发送10K的系统环境和问题对,生成响应,然后使用这些元组生成批评。然后使用这些训练数据集进行细调。
第三阶段:再生器网络使用元组重新生成答案。使用上述数据对第三个LLM进行细调。
在HuggingFaceH4 Open LLM Leaderboard使用的指标上,演员网络的结果如下:
HelixNet的批评和再生器不仅在附带的演员模型上进行了测试,还在13B和70B的SynthIA模型上进行了测试。它们似乎可以很容易地进行转移,因为它们学习的功能是提供智能的批评,然后再生原始的响应。但是,当所有三者都像在HelixNet中那样一起使用时,这种架构的效果最好。
HelixNet是一种新颖的深度学习架构,它通过结合演员、评论家和再生器三者的优势,提供了一种新的方式来改进模型的性能。尽管它的训练过程可能比传统的深度学习模型更复杂,但其结果表明,这种新的方法是有价值的。未来,我们期待看到更多的研究和实践来进一步探索和优化这种架构。
Batch Normalization应该在激活函数之前使用还是激活函数之后使用?
Saleforce发布最新的开源语言-视觉处理深度学习库LAVIS
深度学习模型训练将训练批次(batch)设置为2的指数是否有实际价值?
指标函数(Metrics Function)和损失函数(Loss Function)的区别是什么?
亚马逊近线性大规模模型训练加速库MiCS来了!
Hugging Face发布最新的深度学习模型评估库Evaluate!
XLNet基本思想简介以及为什么它优于BERT
开源版本的GPT-3来临!Meta发布OPT大语言模型!
超越Cross-Entropy Loss(交叉熵损失)的新损失函数——PolyLoss简介
强烈推荐斯坦福大学的深度学习示意图网站
为什么最新的大语言模型(如ChatGPT)都使用强化学习来做微调(finetuning)?
强化学习的数学基础之马尔可夫链(Markov Chain)
强化学习基础之马尔可夫决策过程(Markov Decision Processes)和马尔可夫奖励过程(Markov Reward Processes)
强化学习进入分布式时代——DeepMind分布式强化学习框架ACME发布
强化学习的历史
Q Learning算法详解
开源利器!一个文件实现完整的强化学习算法
多臂老虎机/赌博机/抽奖/问题(Multi-armed Bandit/ Exploration-Exploitation Trade-off)
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
使用R语言进行K-means聚类并分析结果
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
H5文件简介和使用
深度学习技巧之Early Stopping(早停法)
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介