Funções com Multiprocessing para processamento de textos
2020 Apr 01Quem acompanhou o post A small journey in the valley of Natural Language Processing and Text Pre-Processing for German language acompanhou um pouco dos desafios de modelar um classificador de textos em alemão.
No entanto uma coisa que me salvou na parte de pre-processing foi que eu praticamente usei o multiprocessing
para paralelizar o pré-processamento na coluna de texto e isso me salvou um tempo incrível (relembrando: eu tinha 1+ milhão de registros de texto, com 250 palavras média por registro (com um desvio padrão de 700, tudo isso usando biblioteca interna).
É isso: Simples e tranquilo.