9 · JULY · 2013

Como o Google Flu Lida com os Dados com Ruídos

FLAVIO CLESIO · 4 min

Neste post do Nicholas Diakopoulos no blog da Harvard Business Review ele toca em um assunto bem atual que são as estimativas do Google Flu (GF). O GF é o serviço da Google que tem como finalidade estimar fluxos sazonais e realizar a análise de tendências de surtos de gripe ao redor dos EUA.

O Google Flu funciona como um agregador de buscas no qual a pessoa quando realiza uma query no Google.com com a palavra “Gripe” ou correlatas de acordo com parâmetros relativos ao tipo de busca, e localização a Google consegue estimar se há um surto de gripe de acordo com determinada região.

Uma passagem do texto sobre a modelagem de um sistema complexo de estimação como esse está abaixo:

“Big data systems like Google Flu are complex and unwieldy beasts. They can (and sometimes do) fail to give us the insights we think they should. They’re temperamental, messy, and can break down when the data or model changes unpredictably. So as your business adapts to making more and more data-driven decisions, from managing supply chains to hiring the best employees, how can you be confident in your big data decision making process?

I spoke to Rajan Patel, co-inventor of Google Flu, and he explained the two strategies in their assurance process: algorithms that detect and mitigate aberrations in search frequency that might throw their estimate off, and people to get to the root cause of system failures so that biases get rooted out of statistical models. The algorithms manage most of the day-to-day sanity checks before releasing estimates to the public, and the deeper systemic investigations by people are sparked by abnormalities like the H1N1 outbreak in 2009 and this past winter’s flu season.”

Isso mostra que o Big Data que muitos andam vendendo como se fosse mais uma tendência hype para falar em congressos e reuniões de negócios necessita também de uma “big” modelagem para estes dados.

Outros conceitos discutidos no artigo e que valem a pena o estudo são: o ruído presente nos dados (Messiness) que nada mais é que a forma de tratar e consolidar dados distintos e complexos que não agregam na qualidade da informação; e o viés amostral (Sampling Bias) que nada mais é do que realizar inferências partindo de uma amostra que não tem representatividade junto à população.