3 maneiras de aplicar a metodologia ágil à ciência de dados e aos DataOps

Adote uma abordagem ágil para painéis, modelos de machine learning, fontes de dados de limpeza e governança de dados

Author Photo
5:22 pm - 23 de junho de 2020

Praticamente todas as organizações estão tentando se tornar mais orientadas a dados, na esperança de aproveitar visualizações, analytics e machine learning para obter vantagens competitivas. O fornecimento de insights acionáveis por meio de analytics requer um forte programa de DataOps para integrar dados e um programa proativo de governança de dados para tratar da qualidade, privacidade, políticas e segurança dos dados.

Fornecer DataOps, analytics e governança é um escopo significativo que requer alinhar as partes interessadas em prioridades, implementar várias tecnologias e reunir pessoas com diversas origens e habilidades. As metodologias ágeis podem formar o processo de trabalho para ajudar as equipes multidisciplinares a priorizar, planejar e entregar com sucesso valor agregado aos negócios.

As metodologias ágeis também podem ajudar as equipes de dados e analytics a capturar e processar o feedback de clientes, partes interessadas e usuários finais. O feedback deve gerar melhorias na visualização de dados, recalibrações do modelo de machine learning, aumento da qualidade dos dados e conformidade com a governança de dados.

Definindo um processo ágil para ciência de dados e DataOps

A aplicação de metodologias ágeis ao ciclo de vida de analytics e machine learning é uma oportunidade significativa, mas requer a redefinição de alguns termos e conceitos. Por exemplo:

Em vez de um proprietário de produto ágil, uma equipe de ciência de dados ágil pode ser liderada por um proprietário de analytics responsável por gerar resultados de negócios a partir das informações fornecidas.

Às vezes, as equipes de ciência de dados completam novas histórias de usuários com aprimoramentos em painéis e outras ferramentas, mas, de maneira mais ampla, oferecem insights acionáveis, qualidade de dados aprimorada, automação de dataops, governança de dados aprimorada e outras entregas. O proprietário e a equipe de analytics devem capturar os requisitos subjacentes a todos esses produtos a serem entregues na lista de pendências.

As equipes de ciência de dados ágil devem ser multidisciplinares e podem incluir engenheiros de data centers, modeladores de dados, desenvolvedores de banco de dados, especialistas em governança de dados, cientistas de dados, cientistas de dados de cidadãos, administradores de dados, estatísticos e especialistas em machine learning. A composição da equipe depende do escopo do trabalho e da complexidade dos dados e analytics necessários.

É provável que uma equipe de ciência de dados ágil tenha vários tipos de trabalho. Aqui estão três principais que devem preencher os pedidos em atraso e os compromissos de sprint.

Desenvolvendo e atualizando analytics, painéis e visualizações de dados

As equipes de ciência de dados devem conceber painéis para ajudar os usuários finais a responder perguntas. Por exemplo, um painel de vendas pode responder à pergunta: “Quais territórios de vendas tiveram mais atividades de vendas por representante nos últimos 90 dias?” Um painel para as equipes ágeis de desenvolvimento de software pode responder: “Nos últimos três lançamentos, quão produtiva a equipe está fornecendo recursos, resolvendo dívidas técnicas e resolvendo defeitos de produção?”

As histórias de usuários ágeis devem abordar três perguntas: Quem são os usuários finais? Que problema eles querem resolver? Por que o problema é importante? As perguntas são a base para escrever histórias de usuário ágeis que fornecem analytics, painéis ou visualizações de dados. As perguntas abordam quem pretende usar o painel e quais respostas precisam.

Em seguida, ajuda quando as partes interessadas e os usuários finais fornecem uma hipótese para uma resposta e como pretendem tornar os resultados acionáveis. Como as ideias se tornam acionáveis e seus impactos nos negócios ajudam a responder à terceira pergunta (por que o problema é importante) que as histórias de usuários ágeis devem abordar.

A primeira versão de um painel do Tableau ou do Power BI deve ser um “painel mínimo viável”, que seja bom o suficiente para ser compartilhado com os usuários finais para obter feedback. Os usuários devem informar à equipe de ciência de dados o quão bem o painel aborda suas perguntas e como melhorar. O proprietário do produto de analytics deve colocar esses aprimoramentos na lista de pendências e considerar priorizá-los em sprints futuros.

Desenvolvendo e atualizando modelos de machine learning

O processo de desenvolvimento de modelos de analytics e de machine learning inclui dados de segmentação e marcação, extração de recursos e execução de conjuntos de dados por meio de vários algoritmos e configurações. As equipes de ciência de dados ágil podem registrar histórias de usuário ágeis para preparar dados para uso no desenvolvimento de modelos e, em seguida, criar histórias separadas para cada experimento. A transparência ajuda as equipes a revisar os resultados das experiências, decidir sobre as próximas prioridades e discutir se as abordagens estão convergindo para resultados benéficos.

É provável que existam histórias de usuário separadas para mover modelos do laboratório para ambientes de produção. Essas histórias são devops para ciência de dados e machine learning e provavelmente incluem infraestrutura de script, automação de implantações de modelo e monitoramento dos processos de produção.

Depois que os modelos estão em produção, a equipe de ciência de dados tem responsabilidades de mantê-los. À medida que novos dados chegam, os modelos podem desviar do alvo e exigir recalibração ou reengenharia com conjuntos de dados atualizados. As equipes avançadas de machine learning de empresas como Twitter e Facebook implementam treinamento contínuo e recalibram modelos com novos dados do conjunto de treinamento.

Descobrindo, integrando e limpando fontes de dados

As equipes de ciência de dados ágil devem sempre procurar novas fontes de dados para integrar e enriquecer seus data warehouses e lagos de dados estratégicos. Um exemplo importante são os dados em silos nas ferramentas SaaS, usadas pelos departamentos de marketing para alcançar clientes em potencial ou se comunicar com os clientes. Outras fontes de dados podem fornecer perspectivas adicionais sobre cadeias de suprimentos, dados demográficos de clientes ou contextos ambientais que afetam as decisões de compra.

Os proprietários de analytics devem preencher os backlogs ágeis com fichas para pesquisar novas fontes de dados, validar conjuntos de dados de amostra e integrar os priorizados nos repositórios de dados principais. Quando as equipes ágeis integram novas fontes de dados, as equipes devem considerar a automação da integração de dados, a implementação de regras de validação e qualidade e a vinculação de dados às fontes de dados principais.

Julien Sauvage, Vice-presidente de Marketing de Produtos da Talend, propõe as seguintes diretrizes para criar confiança nas fontes de dados. “Hoje, as empresas precisam ganhar mais confiança nos dados usados em seus relatórios e painéis. É possível obter uma pontuação de confiança integrada com base na qualidade dos dados, popularidade dos dados, conformidade e classificações definidas pelo usuário. Uma pontuação de confiança permite que o profissional de dados veja os efeitos das tarefas de limpeza de dados em tempo real, o que permite corrigir iterativamente os problemas de qualidade dos dados”.

A equipe de ciência de dados também deve capturar e priorizar a dívida de dados.

Historicamente, as fontes de dados careciam de proprietários, administradores e implementações de governança de dados. Sem os controles adequados, muitos formulários e ferramentas de entrada de dados não tinham validação de dados suficiente e as fontes de dados integradas não tinham regras de limpeza ou tratamento de exceções. Muitas organizações têm uma montanha de dados sujos em armazéns e lagos de dados usados em analytics e visualizações de dados.

Assim como não há uma solução rápida para lidar com a dívida técnica, os grupos ágeis de ciência de dados devem priorizar e tratar iterativamente da dívida de dados. À medida que o proprietário de analytics adiciona histórias de usuários para fornecer análises, a equipe deve revisar e perguntar qual dívida de dados subjacente deve ser especificada na lista de pendências e priorizada.

Implementando governança de dados com metodologias ágeis

Os exemplos que compartilhei ajudaram as equipes de ciência de dados a melhorar a qualidade dos dados e fornecer ferramentas para alavancar o analytics na tomada de decisões, produtos e serviços.

Em um programa proativo de governança de dados, as questões relacionadas à política, privacidade e segurança dos dados são priorizadas e tratadas paralelamente ao trabalho para fornecer e melhorar visualizações de dados, analytics, machine learning e dataops. Às vezes, o trabalho de governança de dados se enquadra no escopo das equipes de ciência de dados, mas, mais frequentemente, um grupo ou função separado é responsável pela governança de dados.

As organizações têm crescentes necessidades competitivas em torno de analytics e regulamentos de governança de dados, conformidade e melhores práticas em evolução. A aplicação de metodologias ágeis fornece às organizações uma estrutura, processo e ferramentas bem estabelecidos para priorizar, planejar e fornecer impactos orientados a dados.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.