…dann können keine Ansible-Playbooks auf dem Zielsystem ausgeführt werden, Sysadmins lassen vom Schreiben der Playbooks ab und wenden sich der Fehleranalyse zu. Genau das mache ich nämlich gerade.
Und damit ihr auch etwas davon habt, halte ich das Ganze in diesen Beitrag fest. Die Gründe dafür sind vielfältig:
- Unerfahrene Sysadmins können lernen, wie man bei einer Fehleranalyse vorgehen kann, um nach endlich vielen Schritten zu einem Ergebnis zu kommen
- Falls ich meine Arbeit unterbrechen muss, kann ich mich mithilfe dieses Textes besser erinnern, was ich schon getestet habe und meine Arbeit fortsetzen
- Falls ich Expertenrat einholen muss, kann ich zeigen, was ich schon alles versucht habe
Die erfahrenen Supporter und Sysadmins unter euch sind gerne eingeladen, in den Kommentaren zu ergänzen, wie ihr bei so einem Problem vorgeht und was ich hätte besser machen können. So lernen wir alle etwas dabei.
Die Methode
Bei einer Fehleranalyse stochert man nicht einfach im Heuhaufen herum, in der Hoffnung eine Nadel zu finden. Ich gehe während der Fehleranalyse in folgender Schleife (Pseudocode) vor:
Solange das Problem besteht:
Sichte und bewerte die vorhandenen Informationen;
Forumuliere eine Hypothese zur Ursache des Problems;
Überprüfe die Hypothese;
Hast du damit das Problem gefunden, stelle es ab und höre auf;
Hast du das Problem damit noch nicht gefunden, nimm die gewonnenen Erkenntnisse und iteriere;
Das Problem
$ ansible -i hosts host.example.com -m ping
host.example.com | FAILED! => {
"ansible_facts": {
"discovered_interpreter_python": "/usr/bin/python3.9"
},
"changed": false,
"module_stderr": "Shared connection to host.example.com closed.\r\n",
"module_stdout": "/usr/bin/python3.9: can't open file '/home/tronde/.ansible/tmp/ansible-tmp-1757269581.9965136-5304-74956742819711/AnsiballZ_ping.py': [Errno 1] Operation not permitted\r\n",
"msg": "MODULE FAILURE: No start of json char found\nSee stdout/stderr for the exact error",
"rc": 2
}
Der obige Code-Block zeigt das fehlgeschlagene Ansible-Ad-hoc-Kommando. Das Kommando führt das Module ansible.builtin.ping aus, welches prüft, ob eine Verbindung zum Zielsystem hergestellt werden kann und eine nutzbare Python-Umgebung gefunden wird. Wenn dies erfolgreich ist, sieht die Ausgabe wie im folgenden Code-Block aus:
$ ansible -i hosts host2.example.com -m ping
host2.example.com | SUCCESS => {
"ansible_facts": {
"discovered_interpreter_python": "/usr/bin/python3.9"
},
"changed": false,
"ping": "pong"
}
Die Ausgangslage
Bevor ich mit der Fehleranalyse beginne, schreibe ich auf, was ich über meinen Ansible Control Node und meine beiden Managed Nodes weiß.
Ansible Control Node
- Fedora release 42 (Adams)
- ansible [core 2.18.6]
- config file = /etc/ansible/ansible.cfg
- ansible python module location = /usr/lib/python3.13/site-packages/ansible
- executable location = /usr/bin/ansible
- python version = 3.13.7 (main, Aug 14 2025, 00:00:00) GCC 15.2.1 20250808 (Red Hat 15.2.1-1)
- jinja version = 3.1.6
- libyaml = True
Ansible Managed Nodes
Über host.example.com
und host2.example.com
ist bekannt, dass es:
- sich um Red Hat Enterprise Linux release 9.6 (Plow) handelt
- Ich mich mit dem User
tronde
und SSH-Private-Key einloggen kann
- Bei
tronde
handelt es sich um einen unprivilegierten Benutzer
- Dieser darf
sudo
nutzen, um seine Rechte auszuweiten; dazu muss ein Passwort eingegeben werden
- SELinux auf
Enforcing
steht
Die Fehlermeldung
Und ich habe natürlich eine Fehlermeldung:
"module_stdout": "/usr/bin/python3.9: can't open file '/home/tronde/.ansible/tmp/ansible-tmp-1757269581.9965136-5304-74956742819711/AnsiballZ_ping.py': [Errno 1] Operation not permitted\r\n",
Python meldet, dass die Ausführung von AnsiballZ_ping.py
nicht zugelassen ist.
Hypothese 1: Es liegt nicht an AnsiballZ_ping.py
Wenn dieses Python-Skript nicht ausgeführt werden kann, kann ein anderes Python-Skript ebenfalls nicht ausgeführt weden. Um diese Hypothese zur überprüfen, versuche ich, die UID des Benutzers mit dem Modul ansible.builtin.command abzufragen:
$ ansible -i hosts host.example.com -m command -a 'id'
host.example.com | FAILED! => {
"ansible_facts": {
"discovered_interpreter_python": "/usr/bin/python3.9"
},
"changed": false,
"module_stderr": "Shared connection to host.example.com closed.\r\n",
"module_stdout": "/usr/bin/python3.9: can't open file '/home/tronde/.ansible/tmp/ansible-tmp-1757271016.543905-6189-111082369101490/AnsiballZ_command.py': [Errno 1] Operation not permitted\r\n",
"msg": "MODULE FAILURE: No start of json char found\nSee stdout/stderr for the exact error",
"rc": 2
}
Damit ist bewiesen, dass die Fehlerursache nicht allein im Skript AnsiballZ_ping.py
liegt.
Hypothese 2: Es ist ein Problem mit Berechtigungen
Die Meldung [Errno 1] Operation not permitted
deutet an, dass fehlende Berechtigungen die Ursache sein können. Also führe ich das Kommando auf dem betroffenen Managed Node einmal als root
aus.
$ ansible -i hosts host.example.com -m ping -b -K
BECOME password:
host.example.com | SUCCESS => {
"ansible_facts": {
"discovered_interpreter_python": "/usr/bin/python3.9"
},
"changed": false,
"ping": "pong"
}
Root darf also, was tronde
nicht darf, denn mit erweiterten Berechtigungen kann das Kommando erfolgreich ausgeführt werden. Die Python-Skripte, die tronde
nicht ausführen darf, liegen im Pfad /home/tronde/.ansible/tmp/<von-Ansible-temporär-erstelltes-Verzeichnis>/AnsiballZ_{command,ping}.py
.
Hypothese 3: tronde darf keine Python-Skripte ausführen
Genauer gesagt, tronde
darf keine Python-Skripte ausführen, welche unterhalb von /home/tronde/.ansible/tmp/
abgelegt sind. Auch diese These wird direkt geprüft. Dazu logge ich mich per SSH als User tronde
auf dem Zielsystem ein, erstelle ein einfaches Python-Skript und versuche dieses auszuführen:
$ mkdir /home/tronde/.ansible/tmp/test
$ cat << EOF > /home/tronde/.ansible/tmp/test/hello.py
> #!/usr/bin/env python3.9
> print("Hello World")
> EOF
$ chmod u+x /home/tronde/.ansible/tmp/test/hello.py
$ /usr/bin/python3.9 /home/tronde/.ansible/tmp/test/hello.py
/usr/bin/python3.9: can't open file '/home/tronde/.ansible/tmp/test/hello.py': [Errno 1] Operation not permitted
Durch diesen Test habe die Hypothese verifiziert und zusätzlich folgendes gelernt: Meine Ansible-Konfiguration auf meinem Ansible Control Node hat nichts mit dem Problem zu tun, da das Problem auftritt, wenn Ansible gar nicht beteiligt ist.
Hypothese 4: Falsche Datei-Berechigungen verhindern die Ausführung der Datei
Ich schaue mir die Datei-Berechtigungen bis zur Datei hello.py
mit dem Programm namei(1)
an:
$ namei -mo /home/tronde/.ansible/tmp/test/hello.py
f: /home/tronde/.ansible/tmp/test/hello.py
dr-xr-xr-x root root /
drwxr-xr-x root root home
drwxr-x--- tronde tronde tronde
drwxrwxr-x tronde tronde .ansible
drwx------ tronde tronde tmp
drwxr-xr-x tronde tronde test
-rwxr--r-- tronde tronde hello.py
Das sieht auf den ersten Blick nicht verkehrt aus. Ich wechsel in das Verzeichnis und lasse mir die Attribute der Datei mit verschiedenen Programmen anzeigen.
$ cd .ansible/tmp/test/
$ stat hello.py
File: hello.py
Size: 46 Blocks: 8 IO Block: 4096 regular file
Device: fd06h/64774d Inode: 51511298 Links: 1
Access: (0744/-rwxr--r--) Uid: ( 1000/tronde) Gid: ( 1000/tronde)
Context: unconfined_u:object_r:user_home_t:s0
Access: 2025-09-07 21:21:08.201875001 +0200
Modify: 2025-09-07 21:23:04.564787755 +0200
Change: 2025-09-07 21:23:25.642771941 +0200
Birth: 2025-09-07 21:21:08.201875001 +0200
$ getfacl hello.py
# file: hello.py
# owner: tronde
# group: tronde
user::rwx
group::r--
other::r--
$ file hello.py
hello.py: writable, executable, regular file, no read permission
Datei-Berechtigungen und Linux-ACL bescheinigen dem User tronde
Lesezugriff auf die Datei hello.py
. Das file
-Kommando bescheinigt jedoch no read permission
.
Hypothese 5: Das chmod u+x verursacht das Problem
Nach der Erstellung des Skripts habe ich dieses mit chmod u+x
ausführbar gemacht. Vielleicht verursacht erst dieser Befehl das Problem. Also schaue ich mir die Informationen zum Dateityp vor und nach dem Kommando an. Dazu erstelle ich ein neues Skript.
$ cat <<EOF >hello2.py
> #!/usr/bin/env python3.9
> print("Hello Sysadmin.")
> EOF
$ file hello2.py
hello2.py: writable, regular file, no read permission
Damit kann ich chmod
ebenfalls als Fehlerquelle ausschließen.
Hypothese 6: Shebang verursacht das Problem
Die Shebang #!
sorgt dafür, dass das folgende Kommando mit dem Dateinamen als Argument ausgeführt wird. Gleichzeitig gibt die Shebang
auch dem Programm file
einen Hinweis darauf, um welchen Dateityp es sich handelt.
Zur Überprüfung dieser Hypothese erhebe ich zuerst die Antworten zu folgenden Fragen.
Kann das Skript ohne Shebang ausgeführt werden?
Bei der Überprüfung von Hypothese 2 habe ich verifiziert, dass root
die Dateien wie gewohnt ausführen kann. Nun editiere ich die Datei hello2.py
mit root-Rechten und entferne die Shebang
. Anschließend versuche ich als User tronde
, die Datei mit Hilfe des Python3.9-Interpreters auszuführen.
$ file hello2.py
hello2.py: ASCII text
$ cat hello2.py
print("Hello Sysadmin.")
$ /usr/bin/python3.9 hello2.py
Hello Sysadmin.
Ohne Shebang kann ich das Skript ausführen. Füge ich die Shebang wieder ein, ist der Fehler zurück. Ich kann die Datei noch nicht mal mehr lesen:
$ cat hello2.py
cat: hello2.py: Operation not permitted
$ sudo !!
sudo cat hello2.py
#!/usr/bin/python3.9
print("Hello Sysadmin.")
Zeigen Bash-Skripte mit Shebang das gleiche Verhalten?
$ cat <<EOF >world.sh
> #!/usr/bin/env bash
> echo "Hello world."
> EOF
$ file world.sh
world.sh: Bourne-Again shell script, ASCII text executable
$ cat world.sh
#!/usr/bin/env bash
echo "Hello world."
$ bash world.sh
Hello world.
$ chmod u+x world.sh
$ ./world.sh
Hello world.
Hier ist das Verhalten wie erwartet. Damit ist zwar noch nicht sicher bewiesen, dass das Shebang-Problem mit dem Python-Interpreter zusammenhängt, es gibt aber einen ersten Hinweis.
Wie sieht die Ausgabe von file
auf einem Referenzsystem aus?
Mit host2
habe ich ja ein System, das Python-Skripte ohne Fehler ausführt. Ich erstelle auch hier das hello.py
-Skript inkl. Shebang und lasse mir die Ausgabe von file
anzeigen:
$ cat <<EOF >hello.py
> #!/usr/bin/env python3.9
> print("Hello, world.")
> EOF
$ file hello.py
hello.py: Python script, ASCII text executable
Hier findet sich kein Hinweis auf no read permission
.
Hypothese 7: Es ist nur der User tronde betroffen
Um diese Hypothese zu prüfen, erstelle ich einen neuen Benutzer test
, ein Python-Skript und prüfe, ob das Problem auftritt:
# useradd test
# su - test
$ pwd
/home/test
$ cat <<EOF >hello.py
> #!/usr/bin/env python3
> print("Hello, world.")
> EOF
$ cat hello.py
cat: hello.py: Operation not permitted
Das Problem ist nicht auf den User tronde
beschränkt. Es scheint alle nicht privilegierten User zu betreffen.
Zwischenfazit
- Das Problem scheint Host-spezifisch zu sein, da es auf einem Referenzsystem nicht auftritt
- Das Problem tritt nur auf, wenn nicht privilegierte User ein Python-Skript ausführen, welches eine
Shebang
enthält
- Diese Skripte können jedoch mit root-Rechten ausgeführt werden
- Ohne die
Shebang
können die Skripte mittels /usr/bin/python3 <scriptname>
ausgeführt werden
- Ist eine
Shebang
enthalten, die einen Python-Interpreter enthält, verlieren unprivilegierte User den Lesezugriff auf die Datei (cat
, less
, etc. sind dann ebenfalls betroffen)
- Trage ich eine andere
Shebang
z.B. #!/usr/bin/bash
ein, kann ich das Skript als unprivilegierter User mittels `python3 <scriptname>` korrekt ausführen
Für mich bedeutet das leider, dass ich mir nun Hilfe suchen muss, da mir die Ideen ausgehen. Also beginne ich mit einer Internetsuche nach „troubleshooting shebang in python3″… und frage anschließend eine Kollegin um Rat. Vielen lieben Dank Michi für deine Zeit und Ideen!
Die Ursache
Michi und ich haben uns in einer Videokonferenz zusammengefunden und das Problem gemeinsam untersucht. Dabei sind wir nach obigen Muster vorgegangen:
- Genau eine Sache überprüfen
- Ergebnis auswerten
- Eine weitere Vermutung prüfen
- Ergebnis auswerten usw.
Dabei haben wir uns SELinux, das Audit-Log, die Linux-ACLs, das Environment, alias
, locale
und die Ausgabe diverser strace
-Kommandos angeschaut. Die Details spare ich an dieser Stelle ein und komme zum Wesentlichen. Michi fand diesen Foreneintrag: Non-root users unable to read perl scripts. Darin wird fapolicyd
als Fehlerquelle identifiziert. Und das ist tatsächlich auch in meinem Fall der Übeltäter.
Stoppe ich fapolicyd.service
, kann ich die Python-Skripte mit Shebang
wieder ausführen. Starte ich den Dienst erneut, ist auch das Problem zurück. Die Ursache ist identifiziert.
Moment, was ist fapolicyd?
Das Software-Framework fapolicyd steuert die Ausführung von Anwendungen basierend auf einer benutzerdefinierten Richtlinie. Dies ist eine der effizientesten Methoden, um die Ausführung nicht vertrauenswürdiger und potenziell bösartiger Anwendungen auf dem System zu verhindern.
Übersetzung aus Introduction to fapolicyd
Die von Ansible generierten und die von mir zum Test erstellten Python-Skripte wurden in der Ausführung blockiert, da diese als nicht vertrauenswürdig eingestuft wurden.
Allerdings fällt das in diesem Fall in die Kategorie „Gut gemeint ist nicht gleich gut gemacht“. Denn während zwar der Zugriff auf Python-Skripte mit Shebang
für nicht-privilegierte User blockiert wird, können Skripte ohne entsprechende Shebang
weiterhin ausgeführt werden. Wirkliche Sicherheit bietet dies nicht. Ich mache mir dazu mal eine Notiz, um das beobachtete Verhalten im Nachgang mit den Entwicklern zu diskutieren. Vielleicht habe ich das Design und Konzept von fapolicyd
noch nicht ganz verstanden.
Warum ich da nicht früher drauf gekommen bin
- Keine Ausgabe gab einen Hinweis darauf, dass
fapolicyd
die Ausführung blockiert
- Ich habe
fapolicyd
vor langer Zeit zum Test auf diesem Host installiert und vergessen, dass es läuft
- Durch fehlende Konfiguration gab es keine Einträge im Audit-Log, die auf die Ursache hätten hinweisen können
Wie findet man die Ursache, wenn man weiß, dass fapolicyd
läuft?
Erstmal muss man wissen bzw. sich in meinem Fall daran erinnern, dass fapolicyd
läuft. Dann kann man für einen schnellen Test fapolicyd.service
stoppen und prüfen, ob das Problem noch besteht.
Um nun herauszufinden, warum fapolicyd
die Ausführung von Python-Skripten mit Shebang
blockiert, folge ich der Dokumentation in Kapitel 12.6. Troubleshooting problems related to fapolicyd. Ich stoppe fapolicyd.service
und starte den Dienst mit dem Befehl fapolicyd --debug-deny
. Damit werden nur Einträge ausgegeben, die blockierte Zugriffe zeigen. In diesem Modus führe ich den ursprünglichen Ansible-Ad-hoc-Befehl ansible -i hosts host.example.com -m ping
aus, der wie erwartet fehlschlägt. In der Ausgabe auf host.example.com
sehe ich nun:
09/08/2025 20:39:07 [ DEBUG ]: Rule number API supported yes
09/08/2025 20:39:08 [ DEBUG ]: rule=11 dec=deny_audit perm=open auid=1000 pid=693342 exe=/usr/bin/python3.9 : path=/home/tronde/.ansible/tmp/ansible-tmp-1757356747.8650832-23284-14960045792104/AnsiballZ_ping.py ftype=text/x-python trust=0
09/08/2025 20:39:08 [ DEBUG ]: rule=11 dec=deny_audit perm=open auid=1000 pid=693342 exe=/usr/bin/python3.9 : path=/home/tronde/.ansible/tmp/ansible-tmp-1757356747.8650832-23284-14960045792104/AnsiballZ_ping.py ftype=text/x-python trust=0
Die Lösung
Damit ich host.example.com
mit Ansible verwalten kann, muss ich die Ausführung von Python-Skripten unterhalb von /home/tronde/.ansible/tmp/
erlauben. Das dazu erforderliche Vorgehen ist in der Dokumentation in Kapitel 12.4. Adding custom allow and deny rules for fapolicyd beschrieben. Für meinen konkreten Fall sehen die einzelnen Schritte wie folgt aus:
Nach obiger Ausgabe habe ich Regel 11 (rule=11
) getriggert. Also schaue ich mir zuerst an, was in Regel 11 steht und anschließend, in welcher Datei unterhalb von /etc/fapolicyd/rules.d
diese Regel steht:
~]# fapolicyd-cli --list | grep 11
11. deny_audit perm=any all : ftype=%languages
~]# grep 'deny_audit perm=any all : ftype=%languages' /etc/fapolicyd/rules.d/*
/etc/fapolicyd/rules.d/70-trusted-lang.rules:deny_audit perm=any all : ftype=%languages
Anschließend erstelle ich eine Allow-Regel, in einer neuen Datei. Diese muss lexikalisch vor obiger Datei mit der Deny-Regel liegen:
~]# cat <<EOF >/etc/fapolicyd/rules.d/69-trusted-ansible-scripts.rules
> allow perm=any exe=/usr/bin/python3.9 trust=1 : dir=/home/tronde/.ansible/tmp/ trust=0
> EOF
~]# fagenrules --check
/sbin/fagenrules: Rules have changed and should be updated
~]# fagenrules --load
~]#
Anschließend führe ich zum Test folgende Kommandos aus:
- Auf
host.example.com
: fapolicy --debug-deny
- Auf meinem Ansible Control Node:
$ ansible -i inventory host.example.com -m ping
Ich bestaune das gewünschte Ergebnis:
host.example.com | SUCCESS => {
"ansible_facts": {
"discovered_interpreter_python": "/usr/bin/python3"
},
"changed": false,
"ping": "pong"
}
Nun beende ich den Debug-Modus und starte fapolicyd.service
. Fehleranalyse und Entstörung sind damit beendet.
Für welche Anwendungsfälle diese Lösung funktioniert
Die obige Lösung sorgt dafür, dass Python-Skripte unterhalb des Verzeichnisses /home/tronde/.ansible/tmp/
, welche eine Python-Shebang beinhalten, mit dem Python-Interpreter /usr/bin/python3.9
ausgeführt werden können.
Diese Lösung funktioniert nicht
- Für andere unprivilegierte User außer
tronde
- Für andere Python-Interpreter wie z.B.
/usr/bin/python3
oder /usr/bin/python3.11
Hinterher ist man immer schlauer
Jetzt, wo ich weiß, wonach ich suchen muss, finde ich auch direkt mehrere Treffer in den Red Hat Solutions:
Dokumentation findet sich neben der Manpage fapolicyd(8)
z.B. auch im RHEL 9 Security Hardening Guide ab Kapitel 12. Mit RHELDOCS-20981 – Improve section „Deploying fapolicyd“ in RHEL Security Hardening Guide – habe ich zudem einen Verbesserungsvorschlag eingereicht.
Fazit
Dieser Text hat an einem konkreten Beispiel gezeigt, wie eine strukturierte Fehleranalyse durchgeführt wird. Diese führt über die Problembeschreibung sowie das Formulieren von Hypothesen und deren Falsifizierung/Verifizierung nach endlich vielen Schritten zu einer Lösung.
Die Länge des Textes zeigt, wie aufwändig eine Fehleranalyse werden kann. Wenn man keinen direkten Zugriff auf das betroffene System hat und mit jemandem ausschließlich über ein Ticket-System kommunizieren kann, wird schnell klar, dass sich ein Fall über mehrere Tage und Wochen hinziehen kann.
Ich war irgendwann geistig erschöpft und hatte keine Lust mehr allein weiterzumachen, da mir die Ideen ausgingen. In diesem Fall hilft es, sich einen frischen Geist zur Unterstützung zu holen. Gemeinsam mit meiner Kollegin Michi konnte die Ursache (fapolicyd
) identifiziert werden.
Mit Hilfe der Dokumentation war ich dann auch in der Lage, das Problem zu lösen. Ich kann nun Ansible-Playbooks auf dem Zielsystem ausführen.
Der Dienst fapolicyd
überzeugt mich nicht. Meine Gedanken dazu werde ich in einem Folgeartikel mit euch teilen.
In einem weiteren Folgeartikel werde ich darüber schreiben, was Hilfesuchende und Supporter tun können, damit beide Seiten eine möglichst gute Support-Erfahrung haben.
Ich freue mich nun über ein gelöstes Problem und schreibe an meinem Ansible-Playbook weiter.