Forscher der Uni Stanford finden Fehler in KI-Benchmarks
10. Februar 2026 um 09:38
Fehler in KI-Benchmarks sind nicht ungewöhnlich, können aber die Bewertungen verzerren.
Fehler in KI-Benchmarks sind nicht ungewöhnlich, können aber die Bewertungen verzerren.
Forscher von Salesforce AI Research haben mit MCP-Universe einen neuen Benchmark entwickelt, der die Leistung von KI-Agenten besser beurteilen soll als bestehende Ansätze.
Nach über 20 Jahren OCCT für Windows hat der Hersteller OCBASE eine Linux-Version freigegeben, die alle Funktionen der Windows-Edition grafisch ansehnlich aufbereitet bietet.
Mozilla hat im Rahmen der Veröffentlichung von Llamafile 0.9.2 mit LocalScore auch eine erste Version des Benchmarks für lokale KI vorgestellt.
Ein kürzlich veröffentlichter neuer Benchmark unter dem Titel "Humanity's Last Exam" lässt alle heutigen Sprachmodelle verzweifeln.