大模型的发展速度很快,对于需要学习部署使用大模型的人来说,显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云,可以按分钟租用24GB显存的4090显卡公有云实例,非常具有吸引力~
CohereAI开源了2个Aya Vision多模态大模型:80亿和320亿两种规格多模态大模型,评测结果超越Qwen2.5 72B和Llama 3.2 90B,支持23种语言
《Effective Java 第三版》笔记之一 创建静态工厂方法而不是使用构造器
强烈推荐!清华大学100亿参数规模的免费商用授权大模型:CPM-Bee 10B
大型语言模型的新扩展规律(DeepMind新论文)——Training Compute-Optimal Large Language Models
微软开源DeepSpeed Chat——一个端到端的RLHF的pipeline,可以用来训练类ChatGPT模型。
MiniMaxAI开源全球推理长度最长的推理大模型MiniMax-M1:100万tokens输入,最高支持80K的推理长度
DeepSeekAI开源第二代数学理论证明大模型DeepSeek-Prover-V2:让AI帮助数学家证明数学理论!
谷歌发布新一代大模型Gemini 2.5 Flash,成本、速度和性能的最优均衡,同时支持推理和非推理模式,评测结果超Sonnet 3.7