Anthropic schasst den Klassiker SWE-bench Verified
SWE-bench Verified war lange ein führender KI-Benchmark, der die Leistung der Modelle beim autonomen Programmieren messen sollte.
SWE-bench Verified war lange ein führender KI-Benchmark, der die Leistung der Modelle beim autonomen Programmieren messen sollte.
Mozilla liefert ein neues Update für Firefox und setzt dabei einen deutlichen Schwerpunkt auf Transparenz. Die Version 148 steht nun bereit und führt eine zentrale Anlaufstelle ein, mit der Nutzer alle KI Funktionen im Browser verwalten können. Die Einstellungen wirken übersichtlich und geben sofort ein Gefühl von Kontrolle. Im Mittelpunkt steht ein neuer Bereich, der […]
Der Beitrag Firefox 148 bringt Kontrolle über KI Funktionen erschien zuerst auf fosstopia.
Bislang galt als ausgemacht, dass die immensen Investitionen in KI-Infrastruktur ein Wachstumsmotor für die amerikanische Wirtschaft seien.
Einerseits senkt das Vibe Coding die Eintrittsschwelle und ermöglicht auch weniger erfahrenen Entwicklern die Mitarbeit, andererseits wächst der Aufwand in der Qualitätskontrolle und beim…
Das Wettrennen um die Spitzenplätze in den Benchmark-Ranglisten, wo sich in kurzer Folge die Modelle ablösen, geht weiter: Nun behauptet Gemini 3.1 Pro in vielen Charts den ersten Platz.
Das neueste Update von xAIs Sprachmodell Grok enthält 16 spezialisierte Untermodelle mit menschlichen Vornamen, die sich jeweils Fragen aus einem ganz bestimmten Fachgebiet annehmen.
Google hat eine Erweiterung der Gemini-App veröffentlicht, die mit Hilfe des generativen Modells Lyra 3 Musik komponieren kann.
Die deutsche Wikipedia hat eine Regelung beschlossen, derzufolge alle enzyklopädischen Texte ausschließlich von menschlichen Autoren stammen müssen, von LLMs erzeugte Texte sind ausdrücklich…
Anthropic hat sein Modell Claude Sonnet auf die Version 4.6 upgedatet. Das ist nun für alle Nutzer der Free- und Pro-Abos das Standardmosell in Claude.ai und Cowork.
Nachdem Amazon am 5. Februar angekündigt hatte, in diesem Jahr 200 Milliarden Dollar in KI investieren zu wollen, wurden die Anlieger nervös.
Der KI-Agent OpenClaw hat in den letzten Wochen hohe Wellen geschlagen – wegen seiner Fähigkeiten, aber auch wegen zunehmender Sicherheitsbedenken.
In den USA ist der erste von der Firma Weave produzierte Heimroboter bestellbar, der mehr oder weniger autonom Wäsche falten kann.
Google hat den Schlussfolgerungsmodus seines Spitzenmodells Gemini 3 mit einem wichtigen Update aufgewertet, dass nach eigener Aussage die Grenzen der künstlichen Intelligenz weiter verschieben…
Der ehemalige Chef von Microsofts Entwicklerplattform Github, Thomas Dohmke, plant mit seinem Start-up Entire eine neue Plattform, speziell für die Zusammenarbeit zwischen menschlichen…
OpenAI berichtet in einem Blog von einem Projekt, bei dem eine nicht näher bezeichnete komplexe Software für die interne Verwendung ausschließlich von Codex-Agenten programmiert wurde und keine…
Forscher der École Polytechnique Fédérale de Lausanne, des Tübinger ELLIS Institute, des Max-Planck-Instituts für Intelligente Systeme und des Tübinger AI Center haben einen Benchmark entwickelt,…
Fehler in KI-Benchmarks sind nicht ungewöhnlich, können aber die Bewertungen verzerren.
Die großen US-Tech-Konzerne haben für dieses Jahr schwindelerregende Investitionen in KI angekündigt. So will Google bis zu 185 Milliarden investieren, Amazon sogar 200 Milliarden.
Die Sicherheitsfirma Virus Total hat Hunderte sogenannte Skills entdeckt, die vorgeben die Fähigkeiten des populären KI-Agenten OpenClaw zu erweitern, tatsächlich aber Malware-Schleudern sind.
Kurz nachdem OpenAI angekündigt hat, für die Nutzer der kostenlosen Zugänge Werbung einzublenden, betont Anthropic, dass man das niemals tun werde.
Anthropic hat ein Team aus 16 Claude-Opus-4.6-Agenten dazu gebracht, einen C-Compiler in der Programmiersprache Rust zu entwickeln, der am Ende den Linux-Kernel erfolgreich kompilieren konnte.
Anthropic hat sein Spitzenmodell auf die Version 4.6 upgedatet.
Im Münchner Tucherpark hat die Telekom eine der größten KI-Fabriken Europas und das größte deutsche KI-Rechenzentrum offiziell in Betrieb genommen.
Das französische KI-start-up Mistral hat mit Voxtral Transcribe 2 zwei neue KI-Modelle für die Übertragung von gesprochener Sprache in Text vorgestellt.
Das vom unabhängigen Marktbeobachter Artificial Analysis geführte KI-Leaderboard hat im Sektor Text-zu-Bild-Systeme einen neuen Spitzenreiter, der OpenAIs GPTImage 1.5 und Googles Nano Banana Pro…