Anthropic schasst den Klassiker SWE-bench Verified
SWE-bench Verified war lange ein führender KI-Benchmark, der die Leistung der Modelle beim autonomen Programmieren messen sollte.
SWE-bench Verified war lange ein führender KI-Benchmark, der die Leistung der Modelle beim autonomen Programmieren messen sollte.