Neuer Mathe-Benchmark lässt führende KIs scheitern
Das Forschungsinstitut Epoch AI hat mit FrontierMath einen neuen Benchmark vorgestellt, an dem führende Systeme wie Claude 3.5 Sonnet, GPT-4o, o1-preview oder Gemini 1.5 Pro reihenweise…
Das Forschungsinstitut Epoch AI hat mit FrontierMath einen neuen Benchmark vorgestellt, an dem führende Systeme wie Claude 3.5 Sonnet, GPT-4o, o1-preview oder Gemini 1.5 Pro reihenweise…