Normale Ansicht

Received — 24. Februar 2026 ⏭

Linux-Magazin
Anthropic schasst den Klassiker SWE-bench Verified 24. Februar 2026 um 09:16

Anthropic schasst den Klassiker SWE-bench Verified

24. Februar 2026 um 09:16

SWE-bench Verified war lange ein führender KI-Benchmark, der die Leistung der Modelle beim autonomen Programmieren messen sollte.

Received — 11. Februar 2026 ⏭

Linux-Magazin
Forscher entwickeln Benchmark, der Halluzinationen von LLMs misst 11. Februar 2026 um 10:51

Forscher entwickeln Benchmark, der Halluzinationen von LLMs misst

Linux-Magazin

Von: Jens-Christoph Brendel

11. Februar 2026 um 10:51

Forscher der École Polytechnique Fédérale de Lausanne, des Tübinger ELLIS Institute, des Max-Planck-Instituts für Intelligente Systeme und des Tübinger AI Center haben einen Benchmark entwickelt,…

Received — 10. Februar 2026 ⏭

Linux-Magazin
Forscher der Uni Stanford finden Fehler in KI-Benchmarks 10. Februar 2026 um 09:38

Forscher der Uni Stanford finden Fehler in KI-Benchmarks

Linux-Magazin

Von: Jens-Christoph Brendel

10. Februar 2026 um 09:38

Fehler in KI-Benchmarks sind nicht ungewöhnlich, können aber die Bewertungen verzerren.

Received — 25. August 2025 ⏭

Linux-Magazin
Selbst Top-LLMs schwächeln bei neuem Benchmark für KI-Agenten 25. August 2025 um 09:04

Selbst Top-LLMs schwächeln bei neuem Benchmark für KI-Agenten

Linux-Magazin

Von: Jens-Christoph Brendel

25. August 2025 um 09:04

Forscher von Salesforce AI Research haben mit MCP-Universe einen neuen Benchmark entwickelt, der die Leistung von KI-Agenten besser beurteilen soll als bestehende Ansätze.

Received — 23. April 2025 ⏭

Linuxnews.de
OCCT Diagnosetool jetzt für Linux verfügbar 23. April 2025 um 07:48

OCCT Diagnosetool jetzt für Linux verfügbar

Linuxnews.de

Von: Ferdinand

23. April 2025 um 07:48

Nach über 20 Jahren OCCT für Windows hat der Hersteller OCBASE eine Linux-Version freigegeben, die alle Funktionen der Windows-Edition grafisch ansehnlich aufbereitet bietet.

Quelle