<div dir="ltr">Hello,<div><br></div><div>I did some digging into this and it appears that some extra process (I don't know which one) sends a SIGCHLD to beam.smp which is caught and does not match any pid that the spawn driver is interested in. The spawn driver is built around the assumption that no extra SIGCHLD arrives so after receiving the extra SIGCHLD it does not go looking for more as it thinks it has gotten all it should and thus the exit_status of the ls command is never received. I changed the spawn driver to no longer assume that it is interested in each SIGCHLD but then it starts spinning like crazy over waitpid so we really have to figure out what that extra process is in order to do anything about it.</div><div><br></div><div>For some reason strace in the docker images I built is very very broken. If someone who is better at working with docker wants to pick it up and have a look I've forked and added some things to André's repo: <a href="https://github.com/garazdawi/docker-erlang-bug">https://github.com/garazdawi/docker-erlang-bug</a> and the "fix" with trace output in here: <a href="https://github.com/garazdawi/otp/tree/lukas/erts/docker-rogue-process-fix-kinda">https://github.com/garazdawi/otp/tree/lukas/erts/docker-rogue-process-fix-kinda</a></div><div><br></div><div>The output I get is:</div><div><div>child sleep</div><div>Signal chld waiter</div><div>23: About to execute exec inet_gethost 4 </div><div>child died 23 0</div><div>child died 24 10</div><div>25: About to execute exec ls</div><div>25: ready_input read 67</div><div>child died 25 0</div><div>25: report_exit_status 0 -> 0x7f23ab9c0c2025: report_exit_status 0 -> 0x7f23ab9c0c2025: ready_input read 0</div><div>25: port_inp_failure 0</div><div>Dockerfile</div><div>README.md</div><div>erlang-OTP-18.2.tar.gz</div><div>test.beam</div><div>test.erl</div><div><br></div><div>SUCCESS</div><div><br></div></div><div>the questions is what is this child 24 that dies with status 10? It seems to be sticking together with inet_gethost, but I don't understand why it should generate extra SIGCHLDs.</div><div><br></div><div>Lukas<br><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Dec 17, 2015 at 12:47 PM, André Cruz <span dir="ltr"><<a href="mailto:andre@cabine.org" target="_blank">andre@cabine.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><span class="">On 17 Dec 2015, at 10:31, Alexey Lebedeff <<a href="mailto:binarin@binarin.ru">binarin@binarin.ru</a>> wrote:<br>
><br>
> Ah, docker at its best )<br>
><br>
> $ for iter in $(seq 1 100); do echo -n "$iter " 1>&2 ; docker run --rm edevil/docker-erlang-bug bash -c "sleep 1; erl -noshell -s test run -s init stop" 2>/dev/null; done | sort | uniq -c<br>
>     100 SUCCESS<br>
><br>
> but<br>
><br>
> for iter in $(seq 1 100); do echo -n "$iter " 1>&2 ; docker run --rm edevil/docker-erlang-bug erl -noshell -s test run -s init stop 2>/dev/null; done | sort | uniq -c<br>
>      12 FAILED<br>
>      88 SUCCESS<br>
><br>
> So you should either use bash/sleep trick or try find a bug in docker. Honestly, I just gave up ) Especially given that it's not very convinient to use erlang distribution inside docker containers without something like weavedns.<br>
<br>
</span>There are some subtle changes that somehow mitigate the problem, for example:<br>
<br>
$ docker run edevil/docker-erlang-bug bash -c "erl -noshell -s test run -s init stop 1>&1"<br>
SUCCESS<br>
<br>
Notice the strange stdout redirect. Without it:<br>
<br>
$ docker run edevil/docker-erlang-bug bash -c "erl -noshell -s test run -s init stop"<br>
FAILED<br>
<br>
It seems to me that the Erlang port is not aware that the external command has completed. Can we be sure this is a Docker problem and not some incorrect assumption by the Beam VM about its environment? This recent e-mail <a href="http://erlang.org/pipermail/erlang-questions/2015-October/086590.html" rel="noreferrer" target="_blank">http://erlang.org/pipermail/erlang-questions/2015-October/086590.html</a> talks about launched processes being on another process session, can this be related?<br>
<span class=""><font color="#888888"><br>
André<br>
</font></span><div class=""><div class="h5">_______________________________________________<br>
erlang-questions mailing list<br>
<a href="mailto:erlang-questions@erlang.org">erlang-questions@erlang.org</a><br>
<a href="http://erlang.org/mailman/listinfo/erlang-questions" rel="noreferrer" target="_blank">http://erlang.org/mailman/listinfo/erlang-questions</a><br>
</div></div></blockquote></div><br></div></div></div>