O que é um Data Product?
Sua empresa quer “tratar dados como um produto”. Excelente! O que isso significa?
Nas últimas décadas, a maioria das empresas manteve os dados em um silo organizacional.
As equipes de análise serviam às unidades de negócios e, mesmo quando os dados se tornaram mais cruciais para a tomada de decisões e roadmaps de produtos, as equipes encarregadas dos pipelines de dados eram tratadas mais como encanadores e menos como parceiros.
A partir de 2020, no entanto, os dados não são mais cidadãos de segunda classe. Com ferramentas melhores, funções mais diversificadas e uma compreensão mais clara do potencial total dos dados, as equipes mais inovadoras estão adotando um novo paradigma: tratar os dados como um produto.
Data Mesh é uma abordagem recente que apresenta alguns pilares importantes, sendo um deles o Data Product, de modo que abordagens mais antigas que podem não ter funcionado na prática podem funcionar hoje.
Produto de dados = Domínios de dados + Mindset de produto
Data Product é um ativo de dados reutilizável, projetado para fornecer um conjunto de dados confiáveis para uma finalidade específica (domínio), reduzindo complexidade e tornando-o acessível para a organização.
Observe como uma abordagem de dados orientada a projetos gera maior complexidade e reutilização mínima enquanto a abordagem orientada a produtos é muito mais simples e ágil.
A maior mudança é como pensamos sobre dados: como um produto que deve ser gerenciado com os usuários e seus resultados desejados em mente. As organizações procuram aplicar práticas de gerenciamento de produtos para tornar seus ativos de dados consumíveis. O objetivo de um produto de dados é gerar maior utilização de “dados confiáveis”, facilitando sua análise por um conjunto diversificado de consumidores. Isso, por sua vez, aumenta a capacidade de uma organização de extrair rapidamente inteligência e insights de seus ativos de dados de maneira descomplicada.
A gestão de dados tem adotado constantemente metodologias de ciclo de vida de desenvolvimento de software bem testadas, como DevOps e observabilidade. Agora, o foco mudou para a adoção de práticas de desenvolvimento ágil e gerenciamento de produtos para dados e análises.
Em seu livro fantástico, Data Mesh, Delivering Data-Driven Value at Scale, Zhamak Dehghani diz que os produtos de dados são o “architecture quantum” no Data Mesh. Eles são “the smallest unit of architect that can be independently deployed and managed”. Ela continua dizendo que os produtos de dados são “detectáveis, compreensíveis, confiáveis, endereçáveis, interoperáveis e combináveis, seguros, acessíveis nativamente e valiosos por si só”.
Uma definição complementar: um produto de dados é a combinação de um “domínio de dados” e “data product thinking”.
Você pode pensar em um produto de dados como um “contêiner” de dados independente que resolve diretamente um problema de negócios ou é monetizado. Eles são construídos para usuários internos ou externos em vários níveis de maturidade, e alguns exemplos práticos incluem:
- Uma tabela ou view antiga com um modelo de dados publicado, como um star schema ou uma camada semântica amigável para os negócios. Um exemplo é uma tabela desnormalizada (flatten) ou uma view materializada que une dados de clientes de diversas fontes de dados, como CRM, Google Analytics e arquivos CSVs;
- Um relatório, painel ou aplicação com sua própria interface de usuário (UI), uma API ou acesso SQL de linha de comando. Um exemplo inclui um painel customer-360 que unifica dados de vendas, marketing e serviços;
- Um modelo de ML ou uma métrica que pode ser incorporada aos fluxos de trabalho dos usuários. Um modelo para prever rotatividade de clientes ou análise de sentimento, por exemplo, pode estar disponível como uma função definida pelo usuário para fácil consumo por cientistas de dados ou parceiros fora da organização.
Os produtos de dados permitem mais velocidade e eficiência
As equipes que usam Data Product não precisam perder tempo procurando dados, processando-os no formato certo e criando conjuntos sob medida e pipelines, esforço que acaba criando uma confusão arquitetônica e desafios de governança.
Uma abordagem de produto de dados resulta em padronização que economiza tempo e dinheiro.
Para os fins deste artigo, definimos um domínio de dados como um conjunto de dados identificáveis, reais e relacionados que são gerenciados de forma consistente e que possuem alguma medida de qualidade e precisão.
Os benefícios dessa abordagem podem ser significativos:
- Novos casos de uso de negócios podem ser entregues até 90% mais rápido;
- O custo total de propriedade, incluindo custos de tecnologia, desenvolvimento e manutenção, pode diminuir em 30%;
- A carga de risco e governança de dados pode ser reduzida.
Então, agora vamos combinar essas ideias e criar uma definição prática para os aspectos fundamentais de um Data Product. Um Produto de Dados possui:
- Limites claros para estabelecer um conjunto identificável de dados relacionados;
- Um ownership capacitado para fornecer os recursos organizacionais e a tomada de decisão necessária para tornar os dados valiosos e confiáveis, fornecendo uma visão de longo prazo da evolução do produto;
- Parte de um ecossistema de consumidores e produtores que exige interoperabilidade, consistência e qualidade de dados para agregar valor à empresa;
- Habilitado por uma plataforma que torna os dados detectáveis, endereçáveis, acessíveis e interoperáveis;
- Metadados publicados que permitem a descoberta e o autoatendimento, ao mesmo tempo em que tornam os dados compreensíveis;
- Governança federada que reconhece o poder da autonomia local para implementar políticas corporativas e tornar os dados seguros.
Como os Data Products se diferenciam?
Você pode pensar, qual é o problema e o que há de novo? Não é isso que estamos fazendo há muito tempo?
O que torna os produtos de dados únicos é que eles se concentram nas pessoas e no lado do processo. No passado, nosso trabalho terminava assim que criávamos e entregávamos a parte técnica mencionada acima. No entanto, agora estamos abordando todo o ciclo de vida dos dados, desde seus requisitos até sua criação, uso e, eventualmente, até o fim de sua vida útil. Isso requer uma mentalidade diferente, em que priorizamos o uso comercial para negócios em detrimento da tecnologia. Fundamentalmente, estamos trazendo “pensamento de produto” para os dados.
Quais são algumas das principais características dos produtos de dados?
Se quisermos tratar os dados como um produto, devemos estabelecer uma equipe liderada por um owner de produto de dados. A equipe deve incluir analistas, engenheiros de dados (ou analistas), designers de UX e arquitetos que desenvolveriam produtos de dados para atender às seguintes características:
1. Discoverable
Um dos objetivos dos produtos de dados deve ser a reutilização. Por exemplo, se uma organização investiu para desenvolver um produto multifuncional de dados do cliente 360, ele deve ser aproveitado por vários departamentos. Para que isso aconteça, os produtos precisam ser armazenados em um registro com descrição de metadados adequada para que os usuários possam pesquisar facilmente.
Catálogos de dados têm sido usados para vincular metadados técnicos e comerciais, ao mesmo tempo em que fornecem recursos como linhagem e integração com ferramentas de BI, segurança e qualidade de dados. Como os catálogos são um painel único para descobrir dados, eles também devem ser estendidos para incluir produtos de dados.
2. Quality
Não há maior problema para a adoção de produtos de dados do que a perda de confiança na veracidade da informação. Como um Data Product reúne dados de várias fontes para fornecer um valor agregado, a qualidade de dados descentralizada orientada por domínio aumenta como uma consideração importante do produto de dados.
A equipe deve investir em abordagens modernas de qualidade de dados para detectar e corrigir anomalias antes de produzir Data Products. A qualidade dos dados deve ser tratada como uma iniciativa de negócios com foco principal no contexto, em vez de dimensões técnicas.
3. Secure
A adoção da análise de autoatendimento requer segurança em duas dimensões: acesso dinâmico, autorização apenas para as pessoas certas e garantia de adesão aos padrões de privacidade de dados, como HIPAA e GDPR para informações confidenciais de identificação pessoal (PII).
Os produtos de segurança de dados controlam o acesso e permitem que diferentes consumidores vejam diferentes resultados do mesmo produto de dados, porque impõem políticas de segurança específicas para proteger informações confidenciais e atender às leis de privacidade de dados.
4. Observability
Ao contrário dos aplicativos de software, os dados mudam constantemente. Essas alterações emanam de várias fontes e aplicativos SaaS usados para criar os produtos de dados sem aviso prévio. Essas “anomalias” podem estar relacionadas a mudanças no esquema, dados defasados e fora de ordem ou erros de entrada de dados. Além disso, pode haver falhas nos pipelines e na infraestrutura que podem fazer com que algumas tarefas falhem e passem despercebidas por muito tempo.
Como resultado, pode ser útil investir em ferramentas de observabilidade de dados. Seus recursos podem incluir descoberta automatizada e proativa de anomalias, análise de causa raiz, monitoramento, notificações e recomendações para corrigir anomalias. O resultado final é maior confiabilidade dos Data Products e correção acelerada de erros.
5. Operations
Boas habilidades de dados são difíceis de encontrar e as arquiteturas estão se tornando cada vez mais complexas. As organizações maduras devem adotar uma linha de montagem no estilo de fábrica para criar e implantar produtos de dados para aumentar a agilidade na tomada de decisões.
O DataOps evoluiu como o recurso necessário para fornecer engenharia de dados ágil e eficiente. Seus muitos recursos incluem automação, desenvolvimento de baixo/sem código, integração contínua, teste e implantação. O objetivo final das ferramentas DataOps deve ser acelerar o desenvolvimento de produtos de dados confiáveis.
Conclusão
Diante de tantas mudanças e hypes de tecnologia, não podemos deixar de manter o foco no objetivo principal, que é a capacidade de entregar o valor para o negócio, na busca contínua pela melhor eficiência, confiabilidade e agilidade para as organizações.
Neste contexto, a abordagem de Data Product é um caminho natural e essencial de maturidade para as empresas atingirem melhores resultados na gestão dos dados e tomada de decisões.
Como dica final, é preciso medir esta perspectiva de elevação da maturidade e resultados com Data Product a partir da visão dos usuários de negócios, do contrário estamos incorrendo no mesmo erro de produzir entregas técnicas com os times de dados carentes de confiabilidade e ownership voltadas para resultados reais.
Se você quiser entender melhor como Data Products pode mudar a forma como os dados são tratados e vistos na sua empresa, clique aqui. Somos especializados em construir Data Products confiáveis e soluções analíticas e estamos prontos para ajudar você nesta jornada.