Concept Drifts
Em ambientes não estacionários, os modelos de aprendizado de máquina devem ser constantemente atualizados, e as mudanças devem ser detectadas para tornar os modelos compatíveis com as condições atuais do ambiente. Essas mudanças que forçam as atualizações do modelo são conhecidas como Mudanças de Conceito. Um modelo que não consegue lidar com tais mudanças terá seu desempenho degradado ao longo do tempo.
Por exemplo, um modelo deve ser constantemente atualizado ao lidar com detecção de fraudes, já que os atacantes estão constantemente criando novas abordagens fraudulentas.
Nesses cenários, tanto as atualizações quanto as previsões do modelo devem ser feitas em tempo real devido às restrições de tempo e à rápida chegada de amostras.
Resultados Atuais
O Framework Dynse
O Framework Dynse é capaz de adaptar métodos de seleção dinâmica para lidar com ambientes não estacionários contendo mudanças de conceito. Ele alcança resultados de ponta em benchmarks conhecidos e está publicamente disponível em https://github.com/paulorla/dynse
Publicações sobre o Dynse
Função de Distância e Normalização em Cenários de Fluxo
Medir a distância quando não é possível a normalização é um desafio, pois não conhecemos exatamente o intervalo do espaço de características. Para fluxos de dados, se normalizarmos os dados, devemos considerar estratégias que possam ser replicadas em ambientes reais, como usar as estatísticas de um lote recente ou usar uma amostra do conjunto de dados. Além disso, talvez a normalização não seja obrigatória para fluxos de dados. Dar informações aos nossos modelos de aprendizado de máquina das quais não temos certeza – ou seja, o intervalo dos dados – não é a melhor abordagem.
Um exemplo é a temperatura, que varia muito ao longo do ano. Usar as estatísticas do verão para normalizar os dados do inverno não é válido. No artigo “Função de Distância e Normalização em Cenários de Fluxo”, concluímos que a não normalização dos dados é uma boa estratégia em fluxos com mudanças de conceito.
Concluímos também que as funções de distância de Canberra e Manhattan foram as que tiveram melhor desempenho quando o intervalo das características variava com o tempo.