LM Studio
Wer sich dafür interessiert, Sprachmodelle lokal auszuführen, landen unweigerlich bei Ollama. Dieses Open-Source-Projekt macht es zum Kinderspiel, lokale Sprachmodelle herunterzuladen und auszuführen. Die macOS- und Windows-Version haben sogar eine Oberfläche, unter Linux müssen Sie sich mit dem Terminal-Betrieb oder der API begnügen.
Zuletzt hatte ich mit Ollama allerdings mehr Ärger als Freude. Auf gleich zwei Rechnern mit AMD-CPU/GPU wollte Ollama pardout die GPU nicht nutzen. Auch die neue Umgebungsvariable OLLAMA_VULKAN=1 funktionierte nicht wie versprochen, sondern reduzierte die Geschwindigkeit noch weiter.
Kurz und gut, ich hatte die Nase voll, suchte nach Alternativen und landete bei LM Studio. Ich bin begeistert. Kurz zusammengefasst: LM Studio unterstützt meine Hardware perfekt und auf Anhieb (auch unter Linux), bietet eine Benutzeroberfläche mit schier unendlich viel Einstellmöglichkeiten (wieder: auch unter Linux) und viel mehr Funktionen als Ollama. Was gibt es auszusetzen? Das Programm richtet sich nur bedingt an LLM-Einsteiger, und sein Code untersteht keiner Open-Source-Lizenz. Das Programm darf zwar kostenlos genutzt werden (seit Mitte 2025 auch in Firmen), aber das kann sich in Zukunft ändern.
Installation unter Linux
Kostenlose Downloads für LM Studio finden Sie unter https://lmstudio.ai. Die Linux-Version wird als sogenanntes AppImage angeboten. Das ist ein spezielles Paketformat, das grundsätzlich eine direkte Ausführung der heruntergeladenen Datei ohne explizite Installation erlaubt. Das funktioniert leider nur im Zusammenspiel mit wenigen Linux-Distributionen auf Anhieb. Bei den meisten Distributionen müssen Sie die Datei nach dem Download explizit als »ausführbar« kennzeichnen. Je nach Distribution müssen Sie außerdem die FUSE-Bibliotheken installieren. (FUSE steht für Filesystem in Userspace und erlaubt die Nutzung von Dateisystem-Images ohne root-Rechte oder sudo.)
Unter Fedora funktioniert es wie folgt:
sudo dnf install fuse-libs # FUSE-Bibliothek installieren
chmod +x Downloads/*.AppImage # execute-Bit setzen
Downloads/LM-Studio-<n.n>.AppImage # LM Studio ausführen
Nach dnf install fuse-libs und chmod +x können Sie LM Studio per Doppelklick im Dateimanager starten.
Erste Schritte
Nach dem ersten Start fordert LM Studio Sie auf, ein KI-Modell herunterzuladen. Es macht gleich einen geeigneten Vorschlag. In der Folge laden Sie dieses Modell und können dann in einem Chat-Bereich Prompts eingeben. Die Eingabe und die Darstellung der Ergebnisse sieht ganz ähnlich wie bei populären Weboberflächen aus (also ChatGPT, Claude etc.).
Nachdem Sie sich vergewissert haben, dass LM Studio prinzipiell funktioniert, ist es an der Zeit, die Oberfläche genauer zu erkunden. Grundsätzlich können Sie zwischen drei Erscheinungsformen wählen, die sich an unterschiedliche Benutzergruppen wenden: User, Power User und Developer.
In den letzteren beiden Modi präsentiert sich die Benutzeroberfläche in all ihren Optionen. Es gibt
vier prinzipielle Ansichten, die durch vier Icons in der linken Seitenleiste geöffnet werden:
- Chats
- Developer (Logging-Ausgaben, Server-Betrieb)
- My Models (Verwaltung der heruntergeladenen Sprachmodelle)
- Discover (Suche und Download weiterer Modelle).
GPU Offload und Kontextlänge einstelln
Sofern Sie mehrere Sprachmodelle heruntergeladen haben, wählen Sie das gewünschte Modell über ein Listenfeld oberhalb des Chatbereichs aus. Bevor der Ladevorgang beginnt, können Sie diverse Optionen einstellen (aktivieren Sie bei Bedarf Show advanced settings). Besonders wichtig sind die Parameter Context Length und GPU Offload.
Die Kontextlänge limitiert die Größe des Kontextspeichers. Bei vielen Modellen gilt hier ein viel zu niedriger Defaultwert von 4000 Token. Das spart Speicherplatz und erhöht die Geschwindigkeit des Modells. Für anspruchsvolle Coding-Aufgaben brauchen Sie aber einen viel größeren Kontext!
Der GPU Offload bestimmt, wie viele Ebenen (Layer) des Modells von der GPU verarbeitet werden sollen. Für die restlichen Ebenen ist die CPU zuständig, die diese Aufgabe aber wesentlich langsamer erledigt. Sofern die GPU über genug Speicher verfügt (VRAM oder Shared Memory), sollten Sie diesen Regler immer ganz nach rechts schieben! LM Studio ist nicht immer in der Lage, die Größe des Shared Memory korrekt abzuschätzen und wählt deswegen mitunter einen zu kleinen GPU Offload.


Debugging und Server-Betrieb
In der Ansicht Developer können Sie Logging-Ausgaben lesen. LM Studio verwendet wie Ollama und die meisten anderen KI-Oberflächen das Programm llama.cpp zur Ausführung der lokalen Modelle. Allerdings gibt es von diesem Programm unterschiedliche Versionen für den CPU-Betrieb (langsam) sowie für diverse GPU-Bibliotheken.
In dieser Ansicht können Sie den in LM Studio integrierten REST-Server aktivieren. Damit können Sie z.B. mit eigenen Python-Programmen oder mit dem VS-Code-Plugin Continue Prompts an LM Studio senden und dessen Antwort verarbeiten. Standardmäßig kommt dabei der Port 1234 um Einsatz, wobei der Zugriff auf den lokalen Rechner limitiert ist. In den Server Settings können Sie davon abweichende Einstellungen vornehmen.


Praktische Erfahrungen am Framework Desktop
Auf meinem neuen Framework Desktop mit 128 GiB RAM habe ich nun diverse Modelle ausprobiert. Die folgende Tabelle zeigt die erzielte Output-Geschwindigkeit in Token/s. Beachten Sie, dass die Geschwindigkeit spürbar sinkt wenn viel Kontext im Spiel ist (größere Code-Dateien, längerer Chat-Verlauf).
Sprachmodell MoE Parameter Quant. Token/s
------------- ----- ---------- --------- --------
deepseek-r1-distill-qwen-14b nein 14 Mrd. Q4_K_S 22
devstral-small-2-2512 nein 25 Mrd. Q4_K_M 13
glm-4.5-air ja 110 Mrd. Q3_K_L 25
gpt-oss-20b ja 20 Mrd. MXFP4 65
gpt-oss-120b ja 120 Mrd. MXFP4 48
nouscoder-14b nein 14 Mrd. Q4_K_S 22
qwen3-30b-a3b ja 30 Mrd. Q4_K_M 70
qwen3-next-80b-83b ja 80 Mrd. Q4_K_XL 40
seed-oss-36b nein 36 Mrd. Q4_K_M 10
Normalerweise gilt: je größer das Sprachmodell, desto besser die Qualität, aber desto kleiner die Geschwindigkeit. Ein neuer Ansatz durchbricht dieses Muster. Bei Mixture of Expert-Modellen (MoE-LLMs) gibt es Parameterblöcke für bestimmte Aufgaben. Bei der Berechnung der Ergebnis-Token entscheidet das Modell, welche »Experten« für den jeweiligen Denkschritt am besten geeignet sind, und berücksichtigt nur deren Parameter.
Ein populäres Beispiel ist das freie Modell GPT-OSS-120B. Es umfasst 117 Milliarden Parameter, die in 36 Ebenen (Layer) zu je 128 Experten organisiert sind. Bei der Berechnung jedes Output Tokens sind in jeder Ebene immer nur vier Experten aktiv. Laut der Modelldokumentation sind bei der Token Generation immer nur maximal 5,1 Milliarden Parameter aktiv. Das beschleunigt die Token Generation um mehr als das zwanzigfache:
Welches ist nun das beste Modell? Auf meinem Rechner habe ich mit dem gerade erwähnten Modell GPT-OSS-120B sehr gute Erfahrungen gemacht. Für Coding-Aufgaben funktionieren auch qwen3-next-80b-83b und glm-4.5-air gut, wobei letzteres für den praktischen Einsatz schon ziemlich langsam ist.

Die neue Version von Bottles setzt einen deutlichen Schwerpunkt auf mehr Transparenz. Das Projekt erweitert seine Umgebung für Windows Programme auf Linux um ein Werkzeug, das Nutzern vor dem Start einer Datei wichtige Hinweise liefert. Das neue Analysewerkzeug Eagle untersucht ausgewählte Dateien sehr genau. Das Tool erkennt typische Installer und öffnet deren Inhalt in einer […]
Das Event FOSDEM 2026 bringt die Open Source Szene an einem Wochenende zusammen. Das FOSDEM 26 Event findet dieses Jahr vom 31. Januar bis 1. Februar in Brüssel statt. Über 1.100 Sprecher füllen zahlreiche Devrooms mit mehr als 1.000 Veranstaltungen. Die Bandbreite reicht von tiefen technischen Vorträgen bis zu kurzen Lightning Talks und lebhaften Diskussionsrunden. […]
Mozilla erweitert sein Angebot und liefert nun ein eigenes RPM Paket für Firefox Nightly. Damit erreicht der Browser erstmals Nutzer vieler RPM basierter Distributionen über eine native Paketquelle. Die Installation wird dadurch deutlich einfacher. Bisher bot Mozilla nur ein DEB Paket für Debian Systeme an. Nun erhalten auch Nutzer von Fedora oder openSUSE direkten Zugriff […]
Myrlyn erreicht die erste große Version 1.0 und rückt damit näher an die Rolle eines modernen Software Werkzeugs für openSUSE. Die Anwendung setzt auf Qt und nutzt den libzypp Unterbau. Sie soll langfristig viele Aufgaben von YaST übernehmen. Neu ist der Zugriff auf Community Repositories für Leap 16.0. Diese Quellen fehlten bisher und lassen sich […]
MX Linux legt nach und veröffentlicht mit Version 25.1 das erste Point Release der Infinity Serie. Die neue Ausgabe baut auf Debian 13.3 auf und bringt aufgefrischte Kernel für unterschiedliche Systeme mit. Nutzer erhalten damit eine frische Basis für den Alltag. Die Entwickler setzen auf Linux 6.12 LTS für die regulären Abbilder. Die AHS (Advanced […]
Im Snap Store wächst die Sorge um die Sicherheit von Anwendungen. Der zentrale App Store erleichtert zwar die Veröffentlichung neuer Software, doch genau diese Offenheit wird nun gezielt ausgenutzt. Ein erfahrener Snap Entwickler schlägt deshalb Alarm. Alan Pope beobachtet seit langer Zeit gefälschte Wallet Anwendungen im Store. Diese Programme imitieren bekannte Projekte und locken Nutzer […]
Heute eine gute Nachricht in eigener Sache: Das neue Jahr 2026 beginnt gut für den Tux. Um die „End of 10“ Initiative zu unterstützen, sind ab heute die fosstopia Online Kurse „LINUX BOOTCAMP“ und „Ubuntu Masterclass“ wieder verfügbar. Und zwar kostenlos! Wer von Windows 10 weg möchte, nicht auf Windows 11 wechseln will oder kann, […]
Fedora plant einen großen Schritt für seine Gaming Ausgabe. Mit Fedora Linux 44 soll Fedora Games Lab erstmals mit KDE Plasma starten statt wie bisher mit Xfce. Die Veröffentlichung ist für April 2026 vorgesehen. Die Spieleausgabe von Fedora zeigt seit Jahren eine breite Auswahl freier Spiele. Nutzer finden dort Action Titel sowie Strategie Klassiker und […]
Sicherheitsforscher haben eine neue Schadsoftware für Linux entdeckt, die den Namen VoidLink trägt. Sie richtet sich gezielt gegen Cloud Infrastrukturen und ist damit ein ernstzunehmendes Signal für Unternehmen, die ihre sensibelsten Systeme zunehmend in die Cloud verlagern. Besonders bemerkenswert ist die modulare Architektur, die Angreifern eine breite Palette an Funktionen bietet. Das Framework umfasst mehr […]







Thunderbird legt mit Version 147.0 ein Update vor, das vor allem den Alltag seiner Nutzer erleichtern soll. Die neue Ausgabe wirkt unscheinbar, bringt aber spürbare Verbesserungen für viele mit. Besonders die Pflege des technischen Fundaments stand diesmal im Mittelpunkt. In der Ordneransicht gibt es eine neue Option, denn kompakte Ansichten können nun den vollständigen Pfad […]
GNOME hat die nächste Wartungsversion der aktuellen Brescia Reihe veröffentlicht. GNOME 49.3 wirkt auf den ersten Blick unspektakulär, bringt jedoch viele gezielte Verbesserungen für einen stabileren Alltag. Neue Funktionen fehlen bewusst, denn das Update konzentriert sich vollständig auf Fehlerbehebungen. Ein zentraler Bestandteil ist die aktualisierte Glib 2.86.3 Version. Sie schließt mehrere Sicherheitslücken, die unterschiedliche Bereiche […]
Im Debian Umfeld deutet sich ein großer Schritt an. Das GNOME Team hat angekündigt, GTK2 aus dem aktuellen Entwicklungszweig zu entfernen. Die Änderung soll vor der Veröffentlichung von Debian 14 erfolgen, die für Mitte 2027 vorgesehen ist. Damit endet für das betagte Toolkit eine lange Übergangsphase. GTK2 erhält seit Jahren keine Pflege mehr. Die Entwicklung […]
Budgie läutet mit Version 10.10 eine neue Ära ein. Nach vielen Jahren unter X11 wechselt der Desktop nun endlich zu Wayland. Damit endet ein langer Entwicklungsabschnitt und Budgie 10 tritt in die reine Pflegephase ein. Die Zukunft des Projekts richtet sich klar auf Budgie 11. Trotz des tiefen Wechsels bleibt das vertraute Gefühl erhalten. Panels […]
Die KDE Entwickler veröffentlichen Plasma 6.5.5 und liefern damit ein reines Wartungsupdate für die aktuelle Serie. Neue Funktionen fehlen bewusst, denn das Team konzentriert sich auf Stabilität und saubere Abläufe. Die Veröffentlichung folgt gut einen Monat nach Version 6.5.4 und setzt den Kurs konsequenter Pflege fort. Besonders viel Aufmerksamkeit erhält erneut die Wayland Basis. KWin […]
Der Schweizer Messenger Threema steht vor einem großen Schritt. Comitis Capital übernimmt Threema und löst damit die bisherigen Eigentümer ab. Die Übernahme soll noch im Januar 2026 abgeschlossen werden und sorgt bereits jetzt für reichlich Gesprächsstoff. Comitis Capital sieht in Threema eine starke Marke mit guten Chancen. Themen wie sichere Kommunikation und europäische Datensouveränität spielen […]
Ubuntu Nutzer dürfen sich auf einen frischen Hardware Enablement Stack mit dem nächsten Point-Release freuen. Die Veröffentlichung von Ubuntu 24.04.4 ist auf den 12. Februar 2026 terminiert. In gewohnter Ubuntu-Manier wird der rückportierte HWE-Kernel schon vorher bereitgestellt und bringt eine Reihe moderner Komponenten auf Systeme mit Ubuntu 24.04 LTS. Im Mittelpunkt steht der Sprung auf […]
Linux Mint legt nach der Freigabe von Cinnamon 6.6 für LMDE 7 nun nach und veröffentlicht die neue Version 22.3 der Linux Mint Hauptausgabe mit dem Namen Zena. Die Images stehen bereits auf vielen Spiegelservern bereit und markieren den Abschluss der aktuellen 22er Entwicklungsrunde. Die Ausgabe basiert auf Ubuntu 24.04.3 LTS und nutzt Kernel 6.14. […]