Não se esqueça do CountVectorizer

Muitas das vezes quando vamos usar dados textuais para treinamento de modelos de machine learning usando o Scikit-Learn, algumas das vezes ficamos emperrados em problemas complexos com soluções simples.

TL;DR: Sempre que forem usar treinamento de modelos no Scikit, não esqueça do CountVectorizer()(ou da implementação que vai gerar a matrix de frequência).