Dica de Python: Dask

Para quem não aguenta mais sofrer com o Pandas e não quer lidar com as inúmeras limitações do Scala o Dask é uma ótima biblioteca para manipulação de dados e computação em Python.

Direto da documentação:

Familiar_: Provides parallelized NumPy array and Pandas DataFrame objects
_

Flexible_: Provides a task scheduling interface for more custom workloads and integration with other projects.
_

Native_: Enables distributed computing in pure Python with access to the PyData stack.
_

Fast_: Operates with low overhead, low latency, and minimal serialization necessary for fast numerical algorithms
_

Scales up_: Runs resiliently on clusters with 1000s of cores
_

Scales down_: Trivial to set up and run on a laptop in a single process
_

Responsive: Designed with interactive computing in mind, it provides rapid feedback and diagnostics to aid humans