Metodologias

Uma das formas mais efetivas de redução de riscos em projetos de PD&I é a utilização de metodologias de referência apropriadas. Assim como no desenvolvimento tradicional de aplicações de software, projetos de Ciência de Dados e IA utilizam metodologias específicas, compatíveis com as características desse tipo de projeto. 
 
Em função da crescente demanda por projetos de Ciência de Dados, e com o objetivo de atender à natureza própria desses projetos, surgiram nas últimas duas décadas vários processos e metodologias, semelhantes em essência, porém com diferentes enfoques, conhecidos de forma geral como Knowledge Discovery and Data Mining Process Models (Modelos de processos de descoberta de conhecimento e mineração de dados), ou simplesmente KDDM. Estas metodologias e processos têm em comum o objetivo padronizar e conferir maior rigor às tarefas de identificação, qualificação, extração, tratamento, modelagem e avaliação de conjunto de dados. 
 
As metodologias de referência mais utilizadas para o desenvolvimento de projetos de Ciência de Dados, segundo pesquisa do KDnuggets, conceituado site especializado em Ciência de Dados, são apresentadas a seguir na figura 1. Dentre as metodologias relacionadas, a mais utilizada globalmente para projetos de Ciência de Dados é o CRISP-DM (Cross-Industry Standard Process for Data Mining), a qual o presente trabalho tomará como referência. Em comum, tais metodologias preveem fases e ciclos iterativos, com número imprevisível de iterações no início de cada projeto, tornando explícitas as dificuldades de estimativas prévias de esforço ou prazo de execução.
Metodologias mais utilizadas para projetos de Ciência de Dados
CRISP-DM 
 
O CRISP-DM, a metodologia para o desenvolvimento de projetos de Ciência de Dados mais utilizada atualmente, foi concebida por um consórcio internacional de organizações interessadas em projetos de Ciência de Dados, formado em 1996. A primeira versão da metodologia, o CRISP-DM 1.0, foi publicada em março de 1999, tendo por missão atender a qualquer tipo de entidade geradora ou consumidora de grandes volumes de informação. 
 
Reunindo as melhores técnicas e práticas desenvolvidas pelo mercado, o CRISP-DM é uma metodologia aberta, não-proprietária, gratuita e capaz de integrar os diferentes contextos e perfis profissionais que a Ciência de Dados envolve. Voltada a aprimorar a qualidade dos processos de coleta, modelagem e análise de dados, esse conjunto de práticas reduz efetivamente os riscos inerentes aos projetos de inovação. 
 
Entre 2006 e 2008 houve um esforço de atualização da metodologia pelo consórcio responsável, com a intenção de gerar a versão CRISP-DM 2.0. Entretanto, são desconhecidos os resultados dessa iniciativa. Atualmente, expressões modernas dessa prática são empregadas nos temas mais relevantes da Ciência dos Dados, como BigData, Analytics, Machine Learning, Deep Learning, entre outras. A figura 2 apresenta o CRISP-DM, definido como um percurso metodológico que reúne técnicas e táticas organizadas em um esquema cíclico de seis fases e uma ordem definida.
Fases do Modelo de Referência do CRISP-DM
Diferentemente de processos iterativos incrementais , amplamente utilizados em desenvolvimento de software, as iterações previstas nas metodologias próprias a projetos de Ciência de Dados, como por exemplo o CRISP-DM, podem não incluir nenhum incremento em relação à iteração anterior, consequência natural de processos experimentais, sendo necessário o retorno ao início da fase e a execução de todas as atividades realizadas anteriormente. 
 
Nesse esquema metodológico, há um roteiro englobando todo o conjunto de práticas, indicando não somente a eventual necessidade de se refazer o percurso metodológico, em função de avaliações ou resultados intermediários insatisfatórios, como também pela necessidade eventual de se dividir e tratar separadamente objetivos múltiplos. 
 
Na metodologia CRISP-DM também são previstos microciclos iterativos, englobando uma ou mais fases. Esse esquema metodológico, contemplando pequenos ciclos iterativos, vem ao encontro de características e necessidades presentes em projetos de Ciência de Dados, como por exemplo o entendimento gradual tanto dos processos de negócio como das amostras de dados examinadas. 
 
O entendimento do negócio, do problema a ser tratado e dos dados disponíveis, atividades desenvolvidas logo nas duas primeiras fases metodológica, podem impactar fortemente a definição de escopo e dos objetivos do projeto. Desse modo, as possibilidades de retorno e benefícios, alternativas e estratégias de execução, somente são passíveis de avaliação e definidas após o início efetivo do projeto, sendo continuamente refinados à medida que se avança no percurso metodológico. 
 
A presença dos microciclos iterativos também se presta à mitigação de riscos, antecipando problemas e reduzindo eventual retrabalho, evitando que o projeto avance para as fases seguintes e somente posteriormente sejam percebidos problemas ou o não atingimento de objetivos e índices de qualidade, que determinem o retorno a fases anteriores, ou até mesmo o seu cancelamento. 
 
Ao final de cada fase ou iteração, deve ser possível definir uma das seguintes sequências para o projeto: 
• Os objetivos e índices de qualidade previamente definidos foram alcançados e deve-se avançar para a fase seguinte; 
• Os objetivos e índices de qualidade previamente definidos não foram totalmente alcançados, mas existem indícios suficientes para indicar o prosseguimento do projeto. Nesse caso, deve-se repetir o ciclo ou a fase em questão; 
• Os objetivos e índices de qualidade não foram alcançados, e existem indícios suficientes para indicar a inviabilidade dos objetivos e o cancelamento do projeto. 
 
Mais informações em: Desenvolvimento de Projetos de Data Science