Este artigo aborda a escalada de Advanced Analytics do Canva, uma das maiores plataformas de design que permite aos usuários criar gráficos de mídia social, apresentações, infográficos, marketing digital e outros conteúdos visuais.

Anteriormente, o Canva lançou a primeira versão de seu serviço de assinatura (1.0), que foi construído no Stripe. Todas as métricas de SaaS, como receita recorrente anual (ARR), conversão, churn, reativação e economia, eram hospedadas e rastreadas por terceiros. O Profitwell, por exemplo, foi utilizado para rastrear as principais métricas mencionadas, além de analisar o churn. Esse sistema funcionou bem quando o Canva era relativamente pequeno.

No entanto, à medida que o negócio se expandia rapidamente, também existia uma demanda crescente de projetar e construir uma data stack melhor.

Por exemplo, a análise do churn com a Profitwell era limitada já que não suportava realizar um detalhamento por país, diferenciar planos mensais e anuais e examinar outros segmentos, como o crescimento na região da América Latina. O Lifetime Value (LTV) do assinante era calculado dentro do Profitwell e, infelizmente, com a equação subjacente para o LTV ser proprietário, isso se tornou um problema porque era necessário deixar claro o que LTV significava em cada contexto.

Além disso, existem algumas diferenças no modelo de assinatura utilizado pelo Canva em relação a um modelo de assinatura padrão. Consequentemente, as métricas da Profitwell não forneciam mais as informações corretas para o negócio.

Diante desses e de outros desafios, era essencial a adoção de uma stack que atendesse aos seguintes critérios:

Escalabilidade: os dados de assinatura precisam ser transformados de tal forma que as tabelas de modelos e os relatórios construídos sobre eles possam ser facilmente dimensionados à medida que o Canva introduz planos, preços e gateways de pagamento adicionais.

Flexibilidade: os dados precisam ser granulares o suficiente para serem segmentados em várias dimensões e para definir as principais métricas que atendam às necessidades de negócios em constante evolução.

Confiabilidade: a qualidade dos dados é fundamental, principalmente para o serviço de assinatura, pois os insights e relatórios gerados a partir dos dados possibilitam a tomada de decisões das equipes de Produto e Crescimento. Os dados de receita e rotatividade também são críticos para a administração e para os investidores monitorarem a saúde geral do negócio.

Acessibilidade: os dados não são úteis a menos que estejam acessíveis às equipes internas do Canva, incluindo Produto, Crescimento, Finanças, Design e Engenharia.

Embora uma base de assinantes crescente seja um bom problema, foi preciso fazer algo rapidamente para o bem da organização.

Nesse cenário, o primeiro passo foi a elaboração de um roteiro básico e definição da visão de longo prazo de como seria a evolução da análise de assinaturas. Esse ponto é extremamente importante para ajudar a identificar a natureza de futuras ferramentas e stack. Ficou evidente que o estágio inicial da organização ainda era de Data Analytics, então, melhorar a modelagem de assinatura e as análises em torno disso se tornou o objetivo imediato.

Analytics-Roadmap-Canva-triggo.ai
Reprodução: Roteiro de longo prazo da equipe de dados do Canva Pro (por volta de 2019).

As melhorias na análise ocorreram devido a dois fatores principais: um esquema melhor para assinaturas e uma mudança na infraestrutura de data warehouse e ferramentas de análise. Observe que o último é parte de uma mudança em toda a organização.

Para abordar cada um desses fatores, a equipe de dados redesenhou o esquema das principais tabelas de assinatura do Canva. Ao vincular e agregar informações de várias fontes, incluindo assinatura, cobrança, perfil, atribuição e eventos, foi possível consolidar metadados de milhões de assinantes em uma única fonte, fornecendo informações sobre conversão, renovação e cancelamento. Antes disso, obter esse nível de informação geralmente levava meio-dia de trabalho de um analista!

Além disso, o pipeline de dados para assinaturas também foi redesenhado. Veja um resumo no diagrama a seguir:

Reprodução: Visualização de alto nível do pipeline de dados de assinatura.

As tabelas de assinaturas e tabelas associadas foram migradas, como cobranças de pagamento, para Snowflake, basicamente traduzindo tabelas escritas em Presto e Hive para a linguagem SQL Snowflake.

A ferramenta de construção de dados (dbt), em particular, foi muito útil e permitiu que a empresa modelasse e compartilhasse funções comuns definidas pelo usuário. Também, pela primeira vez, foi possível analisar a qualidade das tabelas por meio de testes de esquema e dados disponíveis em dbt. Consequentemente, a equipe conseguiu dedicar mais tempo melhorando a eficiência da consulta dessas tabelas.

Como resultado, as análises sobre assinaturas melhoraram consideravelmente, permitindo que os critérios definidos acima fossem atingidos. Agora é possível medir a rotatividade em um nível mais granular, por exemplo, por data de coorte, país, plataforma de plano e caminho de atualização. Isso fornece mais informações sobre a natureza dos assinantes, desempenho de retenção ao longo do tempo e insights para os times de Produto e Crescimento atuarem em melhorias no funil de crescimento. A introdução de ferramentas de visualização de dados, incluindo Mode e Looker, permitiu que essas equipes também fizessem autoatendimento se tivessem dúvidas sobre dados.

Além dos benefícios acima, essas mudanças permitiram o desbloqueio de muitas oportunidades que redefiniram a cultura de dados no Canva Pro Group (agora parte do Business and Education Supergroup), incluindo:

  • Taxas de conversão de avaliação de métricas de título unificadas em uma estrutura de experimentação entre empresas;
  • Relatórios e painéis centralizados para qualquer pessoa acessar;
  • Aprendizado de máquina para prever a retenção de assinantes a partir de dados demográficos e comportamentos de uso;
  • Insights e análises para informar e melhorar a integração do produto e a retenção de usuários, encontrando os principais indicadores do comportamento do assinante.

Como prever o churn a partir dessas melhorias?

Previsão de rotatividade 

As melhorias na fase de Análise de Dados do roteiro permitiu o avanço na fase de Análise Preditiva. Uma aplicação clara é a previsão de churn.

O que é churn? 

O próprio termo “churn” é uma palavra carregada e é definida no Canva como um assinante que não deseja mais assinar a Versão Pro, cancelando seus pagamentos recorrentes. A fim de reduzir a taxa, o churn foi dividido em duas categorias diferentes.

churn voluntário refere-se ao cancelamento de uma assinatura porque o assinante cancelou ativamente sua assinatura. Já o churn involuntário ou inadimplente refere-se ao cancelamento de uma assinatura não por ação direta do assinante em cancelar a assinatura. Esta última categoria de rotatividade pode ser devido a pagamentos de assinatura perdidos, causando um cancelamento automatizado.

No Canva, o foco é no churn voluntário por assinante. Este é então vinculado ao LTV do assinante para ser usado em várias aplicações em finanças e marketing.

Você pode visualizar as coortes de churn através do gráfico neste link. Normalmente, as taxas aumentam à medida que os meses progridem em cada coorte. Com o tempo, é possível ver que as taxas diminuem, o que mostra que novos recursos e melhorias de produtos estão retendo os assinantes por mais tempo. Também é uma boa maneira de fornecer aos gerentes de produto e crescimento um instantâneo da retenção.

Rotatividade de modelagem

Falando um pouco mais sobre modelagem de rotatividade de SaaS, considerando assinaturas mensais e um único assinante para cada mês, por exemplo, o usuário retém ou abandona. Isso é essencialmente equivalente a um sorteio, onde cada mês para um único assinante pode ser modelado por um teste de Bernoulli.

Definindo X como uma variável aleatória que denota se um assinante mensal se desconecta no mês t. Suponha a probabilidade de churn como p. Então:

Fórmula Canva-triggo.ai

Essa fórmula é simplesmente uma distribuição geométrica. Porém, esse modelo é ingênuo porque pressupõe que todos os assinantes têm a mesma taxa de cancelamento. Portanto, essa suposição é falsa, já que cada assinante tem uma probabilidade de churn diferente.

Em vez disso, foi utilizado o modelo Fader-Hardie, que, em sua essência, assume que cada assinante tem uma probabilidade de churn diferente, que pode ser descrita por uma distribuição de probabilidade (uma distribuição Beta). Observa-se que, mesmo apresentando poucos detalhes deste modelo, já é possível demonstrar sua vantagem sobre outros modelos de previsão de churn, como um ajuste exponencial e quadrático.

No modelo Fader-Hardie existem duas vantagens. Primeiro, é interpretável, o que permite descobrir o que está acontecendo. Em segundo lugar, o modelo previu adequadamente o churn com apenas dois pontos de dados (ou seja, dois meses de retenção), embora naturalmente mais pontos de dados levariam a melhores previsões. Isso é um grande benefício porque facilita descobrir o LTV de um determinado grupo de assinantes. Com o tempo, as previsões se tornam mais precisas à medida que mais pontos de dados das taxas de rotatividade reais das coortes são obtidos.

O modelo foi adaptado para atender às necessidades do Canva, já que existem assinantes em todo o mundo utilizando a plataforma em uma variedade de dispositivos e, para fins de relatório, era essencial prever a rotatividade por país e por plataforma. O modelo também foi alterado para assinaturas mensais e anuais, que possuem taxas de churn muito diferentes. O churn normalmente acontece anualmente para assinaturas anuais.

Papel do aprendizado de máquina

O aprendizado de máquina também está sendo aplicado para ajudar a mapear o funil de conversão no Canva. A implantação de alguns desses aplicativos é relativamente incipiente, mas está crescendo. 

Uma aplicação prevê quais os usuários que provavelmente se converterão em assinantes pagantes após o período de avaliação. Um preditor de avaliação para pagamento fornece insights e ideias sobre a intervenção de usuários de trial que não têm certeza sobre a conversão para uma assinatura.

Os modelos de aprendizado de máquina têm a reputação de serem caixas pretas. Ou seja, seu funcionamento interno é opaco, tornando difícil explicar como uma previsão é feita. Como existem muitas solicitações de gerentes de produto e profissionais de marketing sobre os segmentos de usuários e o comportamento que os levou a se tornar um assinante, a explicabilidade é um requisito fundamental no Canva.

Atualmente, os modelos utilizados são baseados em regressão logística, mas estão sendo experimentados modelos baseados em árvores, como o XGBoost . Com base na experiência do negócio, no entanto, muitos dos ganhos vêm da melhoria da qualidade das fontes de dados, por isso é essencial continuar investindo em higienização de dados e testes de qualidade de dados.

Lições aprendidas ao longo do caminho

A coleta de dados de várias fontes é um desafio:

Um desafio típico para qualquer pessoa no espaço de análise de dados é a filosofia de separação de interesses. A separação de interesses é o princípio da engenharia de software que garante que um serviço faça apenas uma coisa de maneira eficaz. Por um lado, o Canva se torna confiável e resistente a falhas. Por outro lado, torna muito difícil coletar dados de vários serviços de produção para fornecer a melhor imagem de um assinante (e até mesmo de um usuário típico) no Canva. Ter um processo bom e estabelecido entre os proprietários de um serviço e análises ajuda na coleta de dados confiável e oportuna.

Ter uma infraestrutura de dados sólida é importante antes que uma boa análise de dados possa decolar: 

Todos desejam obter as respostas para suas consultas mais rapidamente, mas isso seria quase impossível sem um processo oportuno e confiável na coleta de dados, ingestão de dados e verificações de qualidade de dados. Além disso, a infraestrutura subjacente precisa ter um desempenho rápido, confiável e eficiente em escala.

Quando se trata de usar os dados de forma eficaz, é importante não colocar a carroça na frente dos bois:

É tentador aplicar o aprendizado de máquina antes de investir em infraestrutura de dados e análises adequadas. No entanto, o aprendizado de máquina é tão bom quanto os dados que entram nele. Ao investir na melhoria dos dados a um nível em que se explora todos os insights, é possível reunir grandes conjuntos de dados variados (ou seja, heterogêneos) para fornecer insights que não são imediatamente óbvios para um analista usando aprendizado de máquina.

A triggo.ai é pioneira na abordagem de Modern Data Stack e DataOps e pode ajudar a sua empresa acelerar a jornada Data Driven, fale com um de nossos especialistas!