O Cloud Data Warehouse ou Lakehouse (termos que tendem a se convergir em breve) passará de uma ferramenta de inteligência de negócios para o centro de tudo o que as empresas fazem. Neste artigo abordamos como tudo isso vai acontecer ou, na verdade, o que já está começando a acontecer.

Como pode ser observado na abordagem relativamente “clássica” de Martin Fowler, da qual publicamos um artigo recente sobre Os 4 Príncipios de Data Mesh, muitas questões sobre a necessidade de conseguirmos aumentar a escala de data analytics nas organizações estão diretamente ligada a agilidade e governança. Ao contrário do que o próprio nome remete, sobre trabalhar com bases distribuídas em silos pela organização, o mais importante é o mindset orientado ao domínio que possibilite priorizar e “segmentar” a criação de valor em esteiras altamente produtivas e automatizadas com DataOps.

Pode parecer que estamos no hype da adoção de Cloud Data Warehouse (CDW), um padrão recente da Modern Data Stack (MDS). A receita do Snowflake cresceu mais de 100% no ano passado e, consequentemente, agora a MDS é um termo comumente usado.

Destacamos que as plataforma de dados, como Data Lake tradicionais, o termo Big Data e evoluções com o avanço da arquitetura Lakehouse, estão contidas na definição de Cloud Data Warehouse da Modern Data Stack neste artigo, com destaque para (Snowflake, BigQuery, Redshift e Databricks).

O mundo está apenas no início desta jornada de crescimento de uma estratégia de dados a partir do centro Cloud Data Platform, onde a maior consolidação se dá atualmente a partir dos CDWs ou Lakehouses, mas o Brasil anda um pouco atrás do mundo em relação à MDS.

Grafico - Cloud Data Warehouse - triggo.ai
Reprodução: Onde estamos hoje por tamanho de mercado.

Pesquisadores projetam que o mercado de Cloud Data Warehouse cresça 34% a cada ano até atingir US$ 39 bilhões em 2026, mas o potencial de longo prazo é muito, muito maior. 

O Cloud Data Warehouse ou Lakehouse (termos que tendem a se convergir em breve) será o centro de controle das empresas no futuro (data-centric). Ele se expandirá da análise e se tornará o core de vendas, operações, finanças e muito mais!

DW - CDW - triggo.ai
Reprodução: O poderoso DW, o futuro core de dados nas organizações.

O CDW passará de uma ferramenta de inteligência de negócios para o centro de tudo o que as empresas fazem. Aqui está como entendemos que vai acontecer (na verdade, já está começando a acontecer).

  1. Inteligência de negócios: O CDW é usado para ajudar as empresas a ter um local para analisar seus dados.
  2. Ferramentas operacionaisReverse ETL, os dados serão enviados para todas as ferramentas operacionais e novas ferramentas internas serão construídas diretamente no Data Warehouse (Data Applications).
  3. Vendas e marketing: Com o aumento do crescimento liderado pelo produto, o Data Warehouse estará no centro das equipes de go-to-market.
  4. Finanças: O CDW poderá realmente trabalhar para termos dados 100% precisos e as equipes de finanças e contabilidade se tornarão alguns dos usuários mais ativos do CDW.
  5. Everything: Quando todas essas peças se juntarem, o CDW será o bloco central de qualquer empresa moderna.


Ainda existem alguns blocos de construção que precisam se encaixar antes que o Cloud Data Warehouse atinja todo o seu potencial.

Five Changes - Cloud Data Warehouse - triggo.ai
Reprodução: Cinco mudanças para o DW atingir todo o seu potencial.

As equipes de dados precisam adotar as melhores práticas da engenharia de software.

As melhores equipes já começaram a usar testes, controle de versão para alterações de código e documentação de dados em catálogos e dbt. Eles também começaram a adotar culturalmente ideias do modo de trabalhar da engenharia; as pessoas de dados geralmente são incorporadas às equipes de produtos, as empresas estão contratando gerentes de produtos de dados e os dados são cada vez menos vistos como uma função de serviço. Porém, mais empresas ainda precisam seguir esse caminho. 

Métricas precisam se tornar prioridade.

As métricas estão a caminho de se tornarem populares, vimos a ascensão de algumas empresas no espaço de armazenamento de métricas. Isso é muito necessário e aborda alguns problemas importantes. Elas serão controladas por versão e haverá uma governança clara sobre como as alterações serão feitas. Também serão instantâneas, portanto, se você quiser replicar uma métrica criada há dois anos, poderá fazer isso até o último decimal. Haverá um lugar claro para defini-las e não serão mais estabelecidas de maneira inconsistente em toda Data Stack. As equipes de dados poderão expor métricas para todas as outras ferramentas por meio de uma API simples e consistente. 

As equipes de produto precisarão ser owner dos dados dos sistemas que possuem.

O artigo sobre Data Mesh apontou alguns desafios muito reais em torno da propriedade dos dados. A maioria das equipes de produto está trabalhando em equipes menores e descentralizadas e o esforço para que sejam owners dos dados que produzem precisa continuar. Os engenheiros irá aprimorá-los e haverá métricas importantes sobre a qualidade deles, além de maneiras mais simples de entender a integridade dos ativos de dados pertencentes às equipes de produto. 

As equipes de dados precisam de visibilidade total de como os dados fluem em todos os sistemas.

À medida que o Data Warehouse se expande em escopo, em todas as direções e para todas as equipes, é preciso haver maneiras mais fáceis e robustas de ficar por dentro de tudo o que acontece. Por exemplo, um painel de controle que fornece o nível certo de informações de cada ferramenta na pilha de dados. 

O papel do Tech Lead de Analytics na mesa de liderança mudará

Quando Cloud Data Warehouse estiver no centro da empresa, o papel do líder de analytics mudará. Não se trata apenas da pessoa no topo, mas também de como as equipes de dados são estruturadas.

“A maioria das equipes de dados não está preparada para o sucesso. Por muitos anos, as equipes foram enterradas na função de TI. Assim como as funções de TI, essas equipes lidavam com a obtenção de dados de seus sistemas para apresentá-los aos stackholders, como CSVs, a partir dos quais, os usuários poderiam fazer sua mágica e chegar a conclusões.” — Brian Offut.

O que nos provoca sobre todas as coisas que precisam acontecer é que muitas delas já estão acontecendo; as melhores empresas estão construindo a ponte com próprias ferramentas, investindo pesado em suas equipes, e a comunidade de dados é excelente e cheia de pessoas ​​tornando tudo isso possível.

DataOps é um conjunto de práticas, processos e tecnologias que combina uma perspectiva integrada e orientada a processos sobre dados com automação e métodos de engenharia de software ágil para melhorar a qualidade, velocidade e colaboração, além de promover uma cultura de melhoria contínua na área de análise de dados.

A triggo.ai é pioneira e especialista em MDS – Modern Data Stack & DataOps no Brasil, desenvolvemos produtos e soluções que permitem nossos clientes atingir o melhor ROI para Data Analytics & AI. Fale com um de nossos especialistas!