DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Home/
  2. Blog/
  3. Tag: 大模型综合能力测试
Tag

Articles tagged "大模型综合能力测试"

A curated list of original AI and LLM articles related to "大模型综合能力测试", updated regularly.

Tags:#大模型综合能力测试
LiveBench:一种抗污染的大型语言模型基准测试

LiveBench:一种抗污染的大型语言模型基准测试

LiveBench是一个针对大型语言模型(LLM)的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制,确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个,每月替换约1/6的问题,以维持测试的有效性。

2025/11/09 22:06:40247
#大模型综合能力测试#大模型评测

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

Today's Picks

  • 重磅!OpenAI发布正式版o1模型,推理能力再次提升,且开启商业化使用,每个月200美元不限量使用!
  • 智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B:图片文本带有中英文混排,指定比例范围内的任意尺寸图像可生成,免费商用授权
  • 使用SpringMVC创建Web工程并使用SpringSecurity进行权限控制的详细配置方法
  • 阿里巴巴的第二代通义千问可能即将发布:Qwen2相关信息已经提交HuggingFace官方的transformers库
  • 是否需要使用NumPy代替Pandas处理数据以提高性能?
  • 腾讯开源Hunyuan-A13B大模型:MoE架构,混合推理(支持直接回复和带推理过程后回复),原WizardLM团队打造,评测结果超Qwen2.5-72B,接近Qwen3-A22B,但参数量只有一半
  • sqoop将mysql数据导入到hive指定的数据库中
  • 大模型评测SimpleVQA全方位深度解析,直击多模态模型“事实幻觉”