大模型的发展速度很快,对于需要学习部署使用大模型的人来说,显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云,可以按分钟租用24GB显存的4090显卡公有云实例,非常具有吸引力~
HumanEval评测接近GPT-4-Turbo!阿里巴巴开源70亿参数编程大模型CodeQwen1.5-7B!
Batch Normalization应该在激活函数之前使用还是激活函数之后使用?
关于GPT-4的多模态版本最新消息:可能的代号是Gobi,也许会比Google下一代LLM的Gemini更早发布
HuggingFace开源语音识别模型Distil-Whisper,基于OpenAI的Whisper-V2模型蒸馏,速度快6倍,参数小49%!
DeepSeekAI开源国产第一个基于混合专家技术的大模型:DeepSeekMoE-16B,未来还有1450亿参数的MoE大模型
Java爬虫入门简介(四)——HttpClient保存使用Cookie登录
OpenAI CEO详解今明两年GPT发展计划:10万美元部署私有ChatGPT、最高支持100万tokens、建立微调模型应用市场
为什么最新的大语言模型(如ChatGPT)都使用强化学习来做微调(finetuning)?
扩散模型是如何工作的:从0开始的数学原理——How diffusion models work: the math from scratch