<div dir="ltr">Here's the erl_crash.dump analysis, done with the nice Fred's script:<div><br></div><div><div><font face="monospace, monospace">analyzing erl_crash.dump, generated on:  Wed Jan 28 13:59:36 2015 </font></div><div><font face="monospace, monospace"><br></font></div><div><font face="monospace, monospace">Slogan: Received SIGUSR1</font></div><div><font face="monospace, monospace"><br></font></div><div><font face="monospace, monospace">Memory:</font></div><div><font face="monospace, monospace">===</font></div><div><font face="monospace, monospace">  processes: 8870 Mb</font></div><div><font face="monospace, monospace">  processes_used: 8869 Mb</font></div><div><font face="monospace, monospace">  system: 1138 Mb</font></div><div><font face="monospace, monospace">  atom: 0 Mb</font></div><div><font face="monospace, monospace">  atom_used: 0 Mb</font></div><div><font face="monospace, monospace">  binary: 750 Mb</font></div><div><font face="monospace, monospace">  code: 9 Mb</font></div><div><font face="monospace, monospace">  ets: 7 Mb</font></div><div><font face="monospace, monospace">  ---</font></div><div><font face="monospace, monospace">  total: 10008 Mb</font></div><div><font face="monospace, monospace"><br></font></div><div><font face="monospace, monospace">Different message queue lengths (5 largest different):</font></div><div><font face="monospace, monospace">===</font></div><div><font face="monospace, monospace">540314 0</font></div><div><font face="monospace, monospace"><br></font></div><div><font face="monospace, monospace">Error logger queue length:</font></div><div><font face="monospace, monospace">===</font></div><div><font face="monospace, monospace"><br></font></div><div><font face="monospace, monospace">File descriptors open:</font></div><div><font face="monospace, monospace">===</font></div><div><font face="monospace, monospace">  UDP:  0</font></div><div><font face="monospace, monospace">  TCP:  180071</font></div><div><font face="monospace, monospace">  Files:  6</font></div><div><font face="monospace, monospace">  ---</font></div><div><font face="monospace, monospace">  Total:  180077</font></div><div><font face="monospace, monospace"><br></font></div><div><font face="monospace, monospace">Number of processes:</font></div><div><font face="monospace, monospace">===</font></div><div><font face="monospace, monospace">  540314</font></div><div><font face="monospace, monospace"><br></font></div><div><font face="monospace, monospace">Processes Heap+Stack memory sizes (words) used in the VM (5 largest different):</font></div><div><font face="monospace, monospace">===</font></div><div><font face="monospace, monospace">   2 196650</font></div><div><font face="monospace, monospace">   1 28690</font></div><div><font face="monospace, monospace">   1 17731</font></div><div><font face="monospace, monospace">   1 10958</font></div><div><font face="monospace, monospace">4677 6772</font></div><div><font face="monospace, monospace"><br></font></div><div><font face="monospace, monospace">Processes OldHeap memory sizes (words) used in the VM (5 largest different):</font></div><div><font face="monospace, monospace">===</font></div><div><font face="monospace, monospace">   1 1439468</font></div><div><font face="monospace, monospace">   1 999631</font></div><div><font face="monospace, monospace">   1 75113</font></div><div><font face="monospace, monospace">   1 28690</font></div><div><font face="monospace, monospace">   1 17731</font></div><div><font face="monospace, monospace"><br></font></div><div><font face="monospace, monospace">Process States when crashing (sum): </font></div><div><font face="monospace, monospace">===</font></div><div><font face="monospace, monospace">540314 Waiting</font></div></div><div><br></div><div><br></div><div>Do you see anything wrong there? I honestly don't.</div><div><br></div><div>Best,</div><div>r.</div><div><br></div><div> </div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jan 28, 2015 at 3:15 PM, Roberto Ostinelli <span dir="ltr"><<a href="mailto:roberto@widetag.com" target="_blank">roberto@widetag.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><br><div class="gmail_quote"><span class="">On Wed, Jan 28, 2015 at 3:08 PM, Anton Lebedevich <span dir="ltr"><<a href="mailto:mabrek@gmail.com" target="_blank">mabrek@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Time scale is different so it's not possible to correlate process<br>
memory with number of reductions or number of GCs.<br></blockquote><div><br></div></span><div>Time scale is different from previous test, but the graph is the same.</div><div>Things get ugly at 140.</div><span class=""><div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
It seems that some process (or processes) starts allocating memory<br>
much faster than before and linux OOM kills the beam when it runs out<br>
of memory on the box.</blockquote><div><br></div></span><div>How can you see that?</div><span class=""><div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">You can try setting a watchdog process<br>
(something like "while true; check memory usage and kill -USR1<br>
beam.smp when it's close to the limit; sleep 1") to get crash dump<br>
before OOM kills beam.smp<br></blockquote><div><br></div></span><div>I did that, I'm currently waiting for the crash dump to finish (it is 2.9GB right now, and still piling up).</div><span class=""><div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Is there anything unusual in logs at the momeng when memory usage is<br>
jumping? Maybe something gets printed to stdout.</blockquote><div><br></div></span><div>Nothing unfortunately.</div><div><br></div><div>Thank you for your help,</div><div>r.</div><div><br></div></div></div></div>
</blockquote></div><br></div>