Os perigos da segmentação racial na criação de modelos

2014 Aug 30

Essa á uma nota mais pessoal do que um post propriamente dito, então relevem o âmbito personalista do que será escrito abaixo.

No blog Mathbabe,é apontada uma questão interessante sobre a reportagem da Gillian Tett no Financial Times sobre o fato de que a modelagem preditiva realizada pelo departamento de policia de Chicago dos EUA foi construída através de uma base de dados baseada onde as pessoas estiveram presas no passado.

Até aí nada de interessante, como em qualquer modelo de mineração de dados tem-se as etapas de Treinamento – Teste – Validação.

No entanto o problema é ético, o qual o aprendizado indutivo realizado pelos algoritmos levam a seguinte consideração ética:

“Se um modelo de aprendizado de máquina que realiza uma segmentação baseada em atributos raciais, mostra-se muito efetivo na questão de redução da criminalidade (em especial a taxa de homicídios), vale a pena defender este modelo em face dos potenciais benefícios? ”

A resposta é um sonoro NÃO!

Erros do Tipo I (mandar para a cadeia algum inocente) tem um peso muito maior do que um erro Tipo II (deixar a solta um ‘potencial’ homicida).

Mas a resposta da Cathy foi simplesmente sensacional, dado que a autora do post no FT é também é mulher:

“Se nós permitíssemos um modelo que fosse utilizado para admissão na universidade com dados em 1870, nós teríamos ainda 0.7% de mulheres indo para a universidade. Agradeça a Deus que nós não tínhamos um Big Data para isto”

Fica claro que a questão da modelagem preditiva ainda tem algumas ‘questões em aberto’ quando trata-se do assunto ética, no entanto deve-se ter um cuidado se variáveis que qualifiquem os registros (características religiosas e raciais por exemplo) pois esse tipo de incorporação de dados ao modelo podem trazer vieses de análise no minimo ruins.