大模型的发展速度很快,对于需要学习部署使用大模型的人来说,显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云,可以按分钟租用24GB显存的4090显卡公有云实例,非常具有吸引力~
在评估大型语言模型(LLM)的数学推理能力时,MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力,但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。
ToolTalk:微软发布的一个用以评测大语言模型工具使用能力的评测工具和评测数据集
OpenAI隐藏的一个ChatGPT新功能:在对话框中@任意GPTs,获得回答!一个巨大的由各种GPT组成的聊天世界即将到来
Google发布第二代Gemini大语言模型,首个登场的Gemini 2 Flash Experimental,评测结果显示其能力已经超越上一代的Gemini 1.5 Pro!
SWE-bench Verified:提升 AI 模型在软件工程任务评估中的可靠性
腾讯发布全新推理大模型Hunyuan-T1:mamba与transformer结合的新架构,与业界模型对比评测结果不错,但是不开源
OpenAI第二代DALL·E发布,可以使用自然语言创造和编辑图片的模型
缺少有标注的数据集吗?福音来了——HuggingFace发布few-shot神器SetFit
除了Mistral-7B-MoE外,MistralAI还有更强大的模型,未宣布的Mistral-medium比混合专家模型更强!