Dica de Python: Dask
2019 Mar 17Para quem não aguenta mais sofrer com o Pandas e não quer lidar com as inúmeras limitações do Scala o Dask é uma ótima biblioteca para manipulação de dados e computação em Python.
Direto da documentação:
Familiar_: Provides parallelized NumPy array and Pandas DataFrame objects
_Flexible_: Provides a task scheduling interface for more custom workloads and integration with other projects.
_Native_: Enables distributed computing in pure Python with access to the PyData stack.
_Fast_: Operates with low overhead, low latency, and minimal serialization necessary for fast numerical algorithms
_Scales up_: Runs resiliently on clusters with 1000s of cores
_Scales down_: Trivial to set up and run on a laptop in a single process
_Responsive: Designed with interactive computing in mind, it provides rapid feedback and diagnostics to aid humans