大模型的发展速度很快,对于需要学习部署使用大模型的人来说,显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云,可以按分钟租用24GB显存的4090显卡公有云实例,非常具有吸引力~
就在刚刚,MetaAI发布了全新一代Llama4大模型,Llama正式进入多模态和MoE架构时代。本次新发布的是Llama4中的2个模型分别是Llama4 Scout和Llama4 Maverick。这两个模型都是170亿激活参数,但是前者共16个专家,后者有128个专家,因此总的参数量分别达到了1090亿和4000亿!不过根据评测的情况看,即使是4000亿规模170亿激活的模型,也和DeepSeek V3.1(即DeepSeek V3 0324)版本差不多。
重回第一!OpenAI升级GPT-4-Turbo到2024-04-09版本(gpt-4-turbo-2024-04-09),GPT-4推理和数学能力大幅提高,基准测试最高有接近20%的提升!
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
层次狄利克雷过程简介(Hierarchical Dirichlet Process, HDP)
为什么最新的大语言模型(如ChatGPT)都使用强化学习来做微调(finetuning)?
MistralAI可能即将发布新的大语言模型,Mistral Next悄悄登场Chat Arena!
大模型领域最著名开源模型小羊驼Vicuna升级!Vicuna发布1.5版本,可以免费商用了!最高支持16K上下文!
又一个国产开源大模型发布:前腾讯创始人创业公司元象发布XVERSE-13B,超过Baichuan-13B,与ChatGLM2-12B齐平!但免费商用授权!