SWE-bench Multilingual

Updated Jul 17, 2026·1,216 views

Problem Count: 300
Institution: Independent
Category: Coding and Software Engineering
Metrics: Accuracy
Language: Multilingual
Difficulty: Medium

Overview

A multilingual software-engineering benchmark covering realistic repository tasks across nine programming languages.

Related resources

Latest SWE-bench Multilingual model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for SWE-bench Multilingual.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	Claude Mythos Preview Extended ThinkingTools	87.30	2026-04-07	Unknown	Closed
	Composer 2.5 Thinking Enabled	79.80	2026-05-18	Unknown	Closed
	Qwen3.7-Max-Preview Thinking EnabledTools	78.30	2026-05-20	Unknown	Closed
4	Kimi K2.6 Thinking EnabledTools	76.70	2026-04-20	1000B	Free Commercial
5	DeepSeek-V4-Pro Thinking Level · Extra HighTools	76.20	2026-04-24	1600B	Free Commercial
6	Hy3 Thinking Level · HighTools	75.80	2026-07-06	295B	Free Commercial
7	DeepSeek-V4-Pro Thinking Level · HighTools	74.10	2026-04-24	1600B	Free Commercial
8	Qwen 3.6 Plus Preview Thinking Enabled	73.80	2026-03-31	Unknown	Closed
9	Qwen3.6-Max-Preview Thinking EnabledTools	73.80	2026-04-18	Unknown	Closed
10	Composer 2 Thinking Enabled	73.70	2026-03-19	Unknown	Closed
11	DeepSeek-V4-Flash Thinking Level · Extra HighTools	73.30	2026-04-24	284B	Free Commercial
12	Kimi K2.5 Thinking Enabled	73.00	2026-01-27	1000B	Free Commercial
13	Claude Opus 4.6 Extended ThinkingTools	72.00	2026-02-05	Unknown	Closed
14	Doubao Seed 2.0 Pro Thinking EnabledTools	71.70	2026-02	Unknown	Closed
15	Qwen3.6-27B Thinking EnabledTools	71.30	2026-04-22	27B	Free Commercial
16	DeepSeek-V4-Flash Thinking Level · HighTools	70.20	2026-04-24	284B	Free Commercial
17	DeepSeek-V4-Pro Standard ModeTools	69.80	2026-04-24	1600B	Free Commercial
18	DeepSeek-V4-Flash Standard ModeTools	69.70	2026-04-24	284B	Free Commercial
19	Qwen3.5-397B-A17B Thinking Enabled	69.30	2026-02-16	39.7B	Free Commercial
20	Qwen3.6-35B-A3B Thinking Enabled	67.20	2026-04-16	35B	Free Commercial
21	Composer 1.5 Thinking Enabled	65.90	2026-02-09	Unknown	Closed
22	Composer 1 Thinking Enabled	56.90	2025-10-29	Unknown	Closed

Latest SWE-bench Multilingual model rankings and full benchmark leaderboard

SWE-bench Multilingual Rank