Was man aus einer Umfrage nicht lernen kann
Viele unter euch kennen bestimmt den Spruch: „Traue nie einer Statistik, die du nicht selbst gefälscht hast.“
Mit Umfrageergebnissen verhält es sich ähnlich. Häufig werden Dinge in diese hineininterpretiert, welche durch die erfassten Daten gar nicht belegt werden können. In diesem Text möchte ich anhand eines einfachen Beispiels erläutern, was man aus einer Umfrage alles nicht ableiten bzw. lernen kann.
Wir unterscheiden zwei Arten von Umfragen
Umfrage ist nicht gleich Umfrage. Dies wird offensichtlich, wenn man sich der englischen Sprache bedient, in der zwischen Poll und Survey unterschieden wird. Ich habe Gemini um eine prägnante Erklärung der Unterschiede gebeten und folgende Antwort erhalten:
Der wesentliche Unterschied zwischen einer Poll und einer Survey liegt in ihrem Umfang und ihrer Komplexität.
- Eine Poll (Meinungsumfrage oder Abstimmung) ist in der Regel eine schnelle, auf eine einzige Frage beschränkte Erhebung. Sie dient dazu, eine sofortige Meinung oder Präferenz zu einem spezifischen Thema zu erfassen, oft mit einfachen Multiple-Choice-Antworten.
- Eine Survey (Befragung, Erhebung oder Umfrage) ist ein umfassenderer Prozess, der aus mehreren Fragen besteht und darauf abzielt, detailliertere Daten und tiefere Einblicke zu sammeln. Sie kann verschiedene Fragetypen enthalten, darunter offene Fragen, um qualitative Informationen zu erhalten.
In diesem Text betrachte ich eine Meinungsumfrage bzw. Abstimmung. Nach obiger Definition zeichnet sich daher schon ab, dass daraus kein großer Erkenntnisgewinn zu erwarten ist.
Umfrage auf Mastodon
Stand 28. August folgen mir auf Mastodon 249 Personen Accounts. Ob es sich dabei um natürliche Personen oder Bots handelt, weiß ich nicht sicher. Dies festzustellen, bedarf einer eigenen Analyse.
Am 20. August habe ich die in Abbildung 1 dargestellte Umfrage gestartet. Die Umfrage lief für die Dauer von einer Woche und ist mittlerweile beendet.

Gewonnene Erkenntnisse
In Abb. 1 ist zu erkennen, dass 21 Personen abgestimmt haben, die Umfrage 5-mal geteilt und 3-mal favorisiert wurde. Laut dem Ergebnis benutzen von den 21 Personen:
- 6 Personen (29 %) die nativen Podman-Befehle
podman {run,start,stop}
etc. - 9 Personen (43 %) verwenden Quadlets
- 6 Personen (29 %) verwenden
podman-compose
Das ist alles.
Der Erkenntnisgewinn ist tatsächlich recht gering. Aber mehr gibt diese kurze Umfrage einfach nicht her.
Was kann man hingegen nicht aus der Umfrage ableiten?
Einige Menschen neigen dazu, Dinge in Umfrageergebnisse hineinzuinterpretieren, die durch die Daten nicht belegt werden können. Dies passiert oftmals eher unterbewusst und völlig ohne böse Absicht. Um dem zu begegnen, hilft es, sich bewusst zu machen, was man alles nicht ableiten kann:
- Ich habe keine Ahnung, wer an der Umfrage teilgenommen hat, da die Beantwortung anonym möglich war und ich keinerlei demographische Daten erhoben habe.
- Da sich in sozialen Medien in der Regel Filterblasen bilden, liegt der Schluss nahe, dass die Antworten vorwiegend aus meiner Filterblase stammen und nicht repräsentativ sind.
- Da die Umfrage mehrfach geteilt wurde, weiß ich nicht, ob nur direkte Follower oder auch indirekte Kontakte abgestimmt haben.
- Ob Menschen die kein Podman nutzen, stattdessen Docker oder gar keine Container nutzen, weiß ich auch nicht.
- Darüber wie viele Menschen in der IT nun Linux-Container betreiben und wie viele davon dies mit Podman tun, weiß ich nichts.
- Diese Umfrage war sicher nicht repräsentativ.
Ziel der Umfrage – Was interessiert mich eigentlich?
Um ehrlich zu sein, habe ich mir zum Ziel der Umfrage gar nicht viele Gedanken gemacht. Ich habe sie spontan erstellt und wollte mich vom Ergebnis überraschen lassen. Während die Umfrage lief, kam in mir die Frage auf, was Menschen versuchen können, aus diesen Umfragen abzuleiten. Das führte zu diesem Artikel.
Grundsätzlich interessieren mich Antworten auf folgende Fragen:
- Wie verbreitet werden Linux-Container in der IT eingesetzt?
- Gibt es signifikante Unterschiede hinsichtlich ihrer Verwendung in Abhängigkeit der Branche?
- Wie groß ist der Anteil von Docker, HELM, Kubernetes, OpenShift, Operator, Podman, Rancher und weiterer Werkzeuge?
- Was sind die bevorzugten Werkzeuge?
- Welche Werkzeuge werden für welchen Zweck bevorzugt genutzt?
- Ist im zeitlichen Verlauf ein Trend zu erkennen?
- Mit welchem Konfigurations-Format erreiche ich eine möglichst große Zielgruppe?
- Wie stelle ich sicher, dass diese Daten unabhängig und repräsentativ erhoben wurden?
Besonders unter Berücksichtigung des letzten Stichpunktes wird deutlich, dass die Beantwortung dieser Fragen mit einer Menge Arbeit verbunden ist. Ich bin nicht so sehr an den Antworten interessiert, als dass ich bereit bin, diese Arbeit und Zeit zu ihrer Erledigung zu investieren.
Kann Künstliche Intelligenz hierbei helfen?
Das herauszufinden, wird Gegenstand eines kommenden Wochenendprojekts sein. Ich sehe dabei grundsätzlich folgende Herausforderungen auf mich zukommen.
Die diversen KI-Chatbots werden meine Fragen grundsätzlich mit einer starken Überzeugung beantworten. Einige listen dabei sogar die Quellen auf, welche sie für die Formulierung ihrer Antwort berücksichtigt haben. Daraus lässt sich dann immerhin ein Quellenverzeichnis erstellen. Die Arbeit liegt dann in der Quellenprüfung:
- Was sind Primärquellen und Sekundärquellen?
- Wie erfolgte die Datenerhebung?
- Gibt es Interessenskonflikte? (z.B. hat der Gewinner eines Vergleichstest den Test bezahlt?)
- Kann ich die Quellen prüfen oder liegen diese hinter Bezahl- bzw. Login-Schranken?
Ich habe noch Zweifel inwieweit mich die KI bei der Quellenprüfung unterstützen kann. Doch darum wird es in einem zukünftigen Artikel gehen. Hier ist nun für heute Schluss.