Metodologias

Metodologias

Uma das formas mais efetivas de redução de riscos em projetos de PD&I é a utilização de metodologias de referência apropriadas. Assim como no desenvolvimento tradicional de aplicações de software, projetos de Ciência de Dados e IA utilizam metodologias específicas, compatíveis com as características desse tipo de projeto.  

Em função da crescente demanda por projetos de Ciência de Dados, e com o objetivo de atender à natureza própria desses projetos, surgiram nas últimas duas décadas vários processos e metodologias, semelhantes em essência, porém com diferentes enfoques, conhecidos de forma geral como Knowledge Discovery and Data Mining Process Models (Modelos de processos de descoberta de conhecimento e mineração de dados), ou simplesmente KDDM. Estas metodologias e processos têm em comum o objetivo padronizar e conferir maior rigor às tarefas de identificação, qualificação, extração, tratamento, modelagem e avaliação de conjunto de dados. 

As metodologias de referência mais utilizadas para o desenvolvimento de projetos de Ciência de Dados, segundo pesquisa do KDnuggets, conceituado site especializado em Ciência de Dados, são apresentadas a seguir na figura 1. Dentre as metodologias relacionadas, a mais utilizada globalmente para projetos de Ciência de Dados é o CRISP-DM (Cross-Industry Standard Process for Data Mining), a qual o presente trabalho tomará como referência. Em comum, tais metodologias preveem fases e ciclos iterativos, com número imprevisível de iterações no início de cada projeto, tornando explícitas as dificuldades de estimativas prévias de esforço ou prazo de execução.

VOLTAR AO INÍCIO 

CRISP-DM 

O CRISP-DM, a metodologia para o desenvolvimento de projetos de Ciência de Dados mais utilizada atualmente, foi concebida por um consórcio internacional de organizações interessadas em projetos de Ciência de Dados, formado em 1996. A primeira versão da metodologia, o CRISP-DM 1.0, foi publicada em março de 1999, tendo por missão atender a qualquer tipo de entidade geradora ou consumidora de grandes volumes de informação. 

Reunindo as melhores técnicas e práticas desenvolvidas pelo mercado, o CRISP-DM é uma metodologia aberta, não-proprietária, gratuita e capaz de integrar os diferentes contextos e perfis profissionais que a Ciência de Dados envolve. Voltada a aprimorar a qualidade dos processos de coleta, modelagem e análise de dados, esse conjunto de práticas reduz efetivamente os riscos inerentes aos projetos de inovação. 

VOLTAR AO INÍCIO 

Entre 2006 e 2008 houve um esforço de atualização da metodologia pelo consórcio responsável, com a intenção de gerar a versão CRISP-DM 2.0. Entretanto, são desconhecidos os resultados dessa iniciativa. Atualmente, expressões modernas dessa prática são empregadas nos temas mais relevantes da Ciência dos Dados, como BigData, Analytics, Machine Learning, Deep Learning, entre outras. A figura 2 apresenta o CRISP-DM, definido como um percurso metodológico que reúne técnicas e táticas organizadas em um esquema cíclico de seis fases e uma ordem definida.

Diferentemente de processos iterativos incrementais , amplamente utilizados em desenvolvimento de software, as iterações previstas nas metodologias próprias a projetos de Ciência de Dados, como por exemplo o CRISP-DM, podem não incluir nenhum incremento em relação à iteração anterior, consequência natural de processos experimentais, sendo necessário o retorno ao início da fase e a execução de todas as atividades realizadas anteriormente.  

Nesse esquema metodológico, há um roteiro englobando todo o conjunto de práticas, indicando não somente a eventual necessidade de se refazer o percurso metodológico, em função de avaliações ou resultados intermediários insatisfatórios, como também pela necessidade eventual de se dividir e tratar separadamente objetivos múltiplos.  

Na metodologia CRISP-DM também são previstos microciclos iterativos, englobando uma ou mais fases. Esse esquema metodológico, contemplando pequenos ciclos iterativos, vem ao encontro de características e necessidades presentes em projetos de Ciência de Dados, como por exemplo o entendimento gradual tanto dos processos de negócio como das amostras de dados examinadas.  

O entendimento do negócio, do problema a ser tratado e dos dados disponíveis, atividades desenvolvidas logo nas duas primeiras fases metodológica, podem impactar fortemente a definição de escopo e dos objetivos do projeto. Desse modo, as possibilidades de retorno e benefícios, alternativas e estratégias de execução, somente são passíveis de avaliação e definidas após o início efetivo do projeto, sendo continuamente refinados à medida que se avança no percurso metodológico.  

A presença dos microciclos iterativos também se presta à mitigação de riscos, antecipando problemas e reduzindo eventual retrabalho, evitando que o projeto avance para as fases seguintes e somente posteriormente sejam percebidos problemas ou o não atingimento de objetivos e índices de qualidade, que determinem o retorno a fases anteriores, ou até mesmo o seu cancelamento.  

Ao final de cada fase ou iteração, deve ser possível definir uma das seguintes sequências para o projeto: 

• Os objetivos e índices de qualidade previamente definidos foram alcançados e deve-se avançar para a fase seguinte; 

• Os objetivos e índices de qualidade previamente definidos não foram totalmente alcançados, mas existem indícios suficientes para indicar o prosseguimento do projeto. Nesse caso, deve-se repetir o ciclo ou a fase em questão; 

• Os objetivos e índices de qualidade não foram alcançados, e existem indícios suficientes para indicar a inviabilidade dos objetivos e o cancelamento do projeto.  

Mais informações em: Desenvolvimento de Projetos de  Ciência de Dados

VOLTAR AO INÍCIO 

CRISP-DM iNuTech

Trata-se de um percurso metodológico que reúne técnicas e táticas organizadas em um esquema cíclico de seis fases e uma ordem definida. Nesse esquema metodológico, há um roteiro englobando todo o conjunto de práticas, indicando não somente a eventual necessidade de se refazer o percurso metodológico, em função de avaliações ou resultados intermediários insatisfatórios, como também pela necessidade eventual de se dividir e tratar separadamente objetivos múltiplos.

Na metodologia CRISP-DM também são previstos microciclos iterativos, englobando uma ou mais fases. Esse esquema metodológico, contemplando pequenos ciclos iterativos, vem ao encontro de características e necessidades presentes em projetos de Ciência de Dados, como por exemplo o entendimento gradual tanto dos processos de negócio como das amostras de dados examinadas. A figura a seguir ilustra esse esquema.