Deezer hatte bereits im Sommer vergangenen Jahres ein Tool entwickelt, das KI-generierte Musik mit einer hohen Treffsicherheit erkennt. Nun bietet es dieses Werkzeug auch anderen Plattformen an.
Das neue, bislang leistungsstärkste Sprachmodell Qwen3-Max-Thinking des chinesischen Tech-Giganten Alibaba hat in einigen Benchmarks so gut oder besser abgeschnitten wie die führenden Modelle…
In der letzten Zeit erregte Elon Musk mit seinem Grok-Chatbot Aufsehen, weil der dazu benutzt werden konnte, Bilder von angezogenen Frauen und Kindern in Nacktdarstellungen zu verwandeln.
Vishal Sikka, der ehemalige CTO von SAP und heutiger Chef seines Start-ups VianAI Systems, hat zusammen mit seinem Sohn, Varin Sikka (Stanford University) eine Studie herausgegeben, die…
Wer sich dafür interessiert, Sprachmodelle lokal auszuführen, landen unweigerlich bei Ollama. Dieses Open-Source-Projekt macht es zum Kinderspiel, lokale Sprachmodelle herunterzuladen und auszuführen. Die macOS- und Windows-Version haben sogar eine Oberfläche, unter Linux müssen Sie sich mit dem Terminal-Betrieb oder der API begnügen.
Zuletzt hatte ich mit Ollama allerdings mehr Ärger als Freude. Auf gleich zwei Rechnern mit AMD-CPU/GPU wollte Ollama pardout die GPU nicht nutzen. Auch die neue Umgebungsvariable OLLAMA_VULKAN=1 funktionierte nicht wie versprochen, sondern reduzierte die Geschwindigkeit noch weiter.
Kurz und gut, ich hatte die Nase voll, suchte nach Alternativen und landete bei LM Studio. Ich bin begeistert. Kurz zusammengefasst: LM Studio unterstützt meine Hardware perfekt und auf Anhieb (auch unter Linux), bietet eine Benutzeroberfläche mit schier unendlich viel Einstellmöglichkeiten (wieder: auch unter Linux) und viel mehr Funktionen als Ollama. Was gibt es auszusetzen? Das Programm richtet sich nur bedingt an LLM-Einsteiger, und sein Code untersteht keiner Open-Source-Lizenz. Das Programm darf zwar kostenlos genutzt werden (seit Mitte 2025 auch in Firmen), aber das kann sich in Zukunft ändern.
Installation unter Linux
Kostenlose Downloads für LM Studio finden Sie unter https://lmstudio.ai. Die Linux-Version wird als sogenanntes AppImage angeboten. Das ist ein spezielles Paketformat, das grundsätzlich eine direkte Ausführung der heruntergeladenen Datei ohne explizite Installation erlaubt. Das funktioniert leider nur im Zusammenspiel mit wenigen Linux-Distributionen auf Anhieb. Bei den meisten Distributionen müssen Sie die Datei nach dem Download explizit als »ausführbar« kennzeichnen. Je nach Distribution müssen Sie außerdem die FUSE-Bibliotheken installieren. (FUSE steht für Filesystem in Userspace und erlaubt die Nutzung von Dateisystem-Images ohne root-Rechte oder sudo.)
Nach dnf install fuse-libs und chmod +x können Sie LM Studio per Doppelklick im Dateimanager starten.
Erste Schritte
Nach dem ersten Start fordert LM Studio Sie auf, ein KI-Modell herunterzuladen. Es macht gleich einen geeigneten Vorschlag. In der Folge laden Sie dieses Modell und können dann in einem Chat-Bereich Prompts eingeben. Die Eingabe und die Darstellung der Ergebnisse sieht ganz ähnlich wie bei populären Weboberflächen aus (also ChatGPT, Claude etc.).
Nachdem Sie sich vergewissert haben, dass LM Studio prinzipiell funktioniert, ist es an der Zeit, die Oberfläche genauer zu erkunden. Grundsätzlich können Sie zwischen drei Erscheinungsformen wählen, die sich an unterschiedliche Benutzergruppen wenden: User, Power User und Developer.
In den letzteren beiden Modi präsentiert sich die Benutzeroberfläche in all ihren Optionen. Es gibt
vier prinzipielle Ansichten, die durch vier Icons in der linken Seitenleiste geöffnet werden:
Chats
Developer (Logging-Ausgaben, Server-Betrieb)
My Models (Verwaltung der heruntergeladenen Sprachmodelle)
Discover (Suche und Download weiterer Modelle).
GPU Offload und Kontextlänge einstelln
Sofern Sie mehrere Sprachmodelle heruntergeladen haben, wählen Sie das gewünschte Modell über ein Listenfeld oberhalb des Chatbereichs aus. Bevor der Ladevorgang beginnt, können Sie diverse Optionen einstellen (aktivieren Sie bei Bedarf Show advanced settings). Besonders wichtig sind die Parameter Context Length und GPU Offload.
Die Kontextlänge limitiert die Größe des Kontextspeichers. Bei vielen Modellen gilt hier ein viel zu niedriger Defaultwert von 4000 Token. Das spart Speicherplatz und erhöht die Geschwindigkeit des Modells. Für anspruchsvolle Coding-Aufgaben brauchen Sie aber einen viel größeren Kontext!
Der GPU Offload bestimmt, wie viele Ebenen (Layer) des Modells von der GPU verarbeitet werden sollen. Für die restlichen Ebenen ist die CPU zuständig, die diese Aufgabe aber wesentlich langsamer erledigt. Sofern die GPU über genug Speicher verfügt (VRAM oder Shared Memory), sollten Sie diesen Regler immer ganz nach rechts schieben! LM Studio ist nicht immer in der Lage, die Größe des Shared Memory korrekt abzuschätzen und wählt deswegen mitunter einen zu kleinen GPU Offload.
Grundeinstellungen beim Laden eines SprachmodellsÜberblick über die heruntergeladenen Sprachmodelle
Debugging und Server-Betrieb
In der Ansicht Developer können Sie Logging-Ausgaben lesen. LM Studio verwendet wie Ollama und die meisten anderen KI-Oberflächen das Programm llama.cpp zur Ausführung der lokalen Modelle. Allerdings gibt es von diesem Programm unterschiedliche Versionen für den CPU-Betrieb (langsam) sowie für diverse GPU-Bibliotheken.
In dieser Ansicht können Sie den in LM Studio integrierten REST-Server aktivieren. Damit können Sie z.B. mit eigenen Python-Programmen oder mit dem VS-Code-Plugin Continue Prompts an LM Studio senden und dessen Antwort verarbeiten. Standardmäßig kommt dabei der Port 1234 um Einsatz, wobei der Zugriff auf den lokalen Rechner limitiert ist. In den Server Settings können Sie davon abweichende Einstellungen vornehmen.
Logging-Ausgaben und Server-OptionenHinter den Kulissen greift LM Studio auf »llama.cpp« zurück
Praktische Erfahrungen am Framework Desktop
Auf meinem neuen Framework Desktop mit 128 GiB RAM habe ich nun diverse Modelle ausprobiert. Die folgende Tabelle zeigt die erzielte Output-Geschwindigkeit in Token/s. Beachten Sie, dass die Geschwindigkeit spürbar sinkt wenn viel Kontext im Spiel ist (größere Code-Dateien, längerer Chat-Verlauf).
Normalerweise gilt: je größer das Sprachmodell, desto besser die Qualität, aber desto kleiner die Geschwindigkeit. Ein neuer Ansatz durchbricht dieses Muster. Bei Mixture of Expert-Modellen (MoE-LLMs) gibt es Parameterblöcke für bestimmte Aufgaben. Bei der Berechnung der Ergebnis-Token entscheidet das Modell, welche »Experten« für den jeweiligen Denkschritt am besten geeignet sind, und berücksichtigt nur deren Parameter.
Ein populäres Beispiel ist das freie Modell GPT-OSS-120B. Es umfasst 117 Milliarden Parameter, die in 36 Ebenen (Layer) zu je 128 Experten organisiert sind. Bei der Berechnung jedes Output Tokens sind in jeder Ebene immer nur vier Experten aktiv. Laut der Modelldokumentation sind bei der Token Generation immer nur maximal 5,1 Milliarden Parameter aktiv. Das beschleunigt die Token Generation um mehr als das zwanzigfache:
Welches ist nun das beste Modell? Auf meinem Rechner habe ich mit dem gerade erwähnten Modell GPT-OSS-120B sehr gute Erfahrungen gemacht. Für Coding-Aufgaben funktionieren auch qwen3-next-80b-83b und glm-4.5-air gut, wobei letzteres für den praktischen Einsatz schon ziemlich langsam ist.
Die amerikanische Science Fiction and Fantasy Writers Association (SFWA) hat bekanntgegeben, dass Werke, die ganz oder teilweise von LLMs verfasst wurden, nicht für ihren Preis, die Nebula…
Tests der britischen Tageszeitung The Guardian haben ergeben, dass ChatGPT bei diversen Anfragen Elon Musks umstrittene Online-Enzyklopedie Grokipedia als Quelle zitiert.
Eleven Labs hat mit „Das Eleven Album“ eine Sammlung von KI-generierter Musik veröffentlicht, das den Stil prominenter Künstler radiotauglich imitiert.
Einer Umfrage des Beratungsunternehmens PwC unter 4454 CEOs aus 95 Ländern im Oktober/November letzten Jahres hat ergeben, dass global nur sehr wenige Unternehmen von KI profitieren und in…
Der Kreditversicherer Allianz Trade hat Zahlen aus seiner aktuellen Schadensstatistik veröffentlicht und warnt vor immer mehr Fällen und höheren Schäden.
ChatGPT führt ein Age-Prediction-System ein, mit dem es versucht, auf das Alter seiner Nutzer zu schließen und so für Anwender unter 18 besondere Jugendschutzmaßnahmen zu etablieren.
Während multimodale LLMs heute Textaufgaben auf Doktorandenniveau lösen können, versagen sie bei visuellen Aufgaben, die Kleinkinder im Alter von drei bis fünf Jahren beherrschen.
Viele KI Dienste wie ChatGPT oder Gemini verlangen blinde Vertrauensbereitschaft. Nutzer senden ihre Gedanken und Anliegen im Klartext und hoffen nebst qualititiv guter Antwort auch auf verantwortungsvollen Umgang. Betreiber speichern jedoch oft alles und nutzen die Daten für Training oder Analyse. Die Kontrolle liegt selten bei den Menschen, die diese Systeme verwenden. Confer verfolgt einen […]
Mit Open Responses gibt es nun erstmals einen Vorschlag für einen Open-Source-Standard für ein herstellerunabhängiges JSON-API, über das Clients mit LLMs kommunizieren können.
In Memphis (Tennessee) geht mit Colossus 2 das erste Gigawatt-Rechenzentrum der Welt in Betrieb. Es dient vor allem dem Training von xAIs Sprachmodell Grok.
Open-Source-Entwickler werden zunehmend durch KI-Müll überlastet. Daniel Stenberg,Gründer und Hauptentwickler des weitverbreiteten Netzwerktools Curl, zieht nun die Konsequenz und beendet sein Bug-Bounty-Programm.
OpenAI hat bekanntgegeben, dass es künftig, beginnend in den USA, allen Nutzern, die die kostenlose Version oder das günstige Go-Abo nutzen, Werbung einblenden will.
Google launcht eine neue Kollektion spezialisierter Sprachmodelle unter dem Namen TranslateGemma, die aus und in 55 Sprachen übersetzt und auf Gemma 3 aufbaut.
Das deutsche KI-Start-up Black Forest Labs veröffentlicht mit Flux.2[klein] sein bisher schnellstes Modell, das hochwertige Bilder in weniger als einer Sekunde erzeugt oder bearbeitet.