Anthropic schasst den Klassiker SWE-bench Verified
SWE-bench Verified war lange ein führender KI-Benchmark, der die Leistung der Modelle beim autonomen Programmieren messen sollte.
SWE-bench Verified war lange ein führender KI-Benchmark, der die Leistung der Modelle beim autonomen Programmieren messen sollte.
Forscher der École Polytechnique Fédérale de Lausanne, des Tübinger ELLIS Institute, des Max-Planck-Instituts für Intelligente Systeme und des Tübinger AI Center haben einen Benchmark entwickelt,…
Fehler in KI-Benchmarks sind nicht ungewöhnlich, können aber die Bewertungen verzerren.
Forscher von Salesforce AI Research haben mit MCP-Universe einen neuen Benchmark entwickelt, der die Leistung von KI-Agenten besser beurteilen soll als bestehende Ansätze.
Nach über 20 Jahren OCCT für Windows hat der Hersteller OCBASE eine Linux-Version freigegeben, die alle Funktionen der Windows-Edition grafisch ansehnlich aufbereitet bietet.
Mozilla hat im Rahmen der Veröffentlichung von Llamafile 0.9.2 mit LocalScore auch eine erste Version des Benchmarks für lokale KI vorgestellt.
Ein kürzlich veröffentlichter neuer Benchmark unter dem Titel "Humanity's Last Exam" lässt alle heutigen Sprachmodelle verzweifeln.