A triggo.ai acompanha de perto o que acontece no mercado e está presente em grandes eventos da área. Na última semana, estivemos em mais uma edição de um dos maiores encontros de Data Analytics & AI do mundo, o Snowflake Summit 2023, onde muitas novas inovações foram abordadas – incluindo avanços em formatos de tabela aberta, IA generativa e LLMs, programabilidade flexível com Snowpark e muito mais.

A seguir, confira alguns highlights do evento que aconteceu em Las Vegas do dia 26 ao dia 29 de junho, e reuniu mais de 250 palestrantes e 178 parceiros em diversas sessões sobre os recursos e capacidades mais recentes da plataforma Snowflake, desde aprimoramentos até novos casos de uso.

Document AI (private preview)

O Document AI é uma nova interface baseada em Large Language Models (LLMs) que permite que as organizações extraiam valor da sua “enxurrada” de documentos rapidamente. O lançamento marca um grande passo para a gigante dos dados que começou com foco em dados estruturados e fornece uma maneira fácil de mobilizar informações úteis não estruturadas que, geralmente, permanecem espalhadas por silos.

“Estamos abrindo uma nova era de dados para os clientes, aproveitando a IA e eliminando silos anteriormente limitados por formato, localização e muito mais para revolucionar como as organizações colocam seus dados para trabalhar e gerar insights com a nuvem de dados.”
Christian Kleinerman
SVP of Product Snowflake

“Os clientes terão uma experiência de ponta a ponta, na qual poderão ter documentos no Snowflake e fazer perguntas estruturadas a partir desses documentos como, por exemplo, o nome do funcionário, o endereço ou o valor total na fatura”, explicou Kleinerman em coletiva de imprensa. “Isso acionará o sistema para pegar os documentos, que são arquivos não estruturados, e convertê-los em dados estruturados”.

No centro do Document AI está o LLM multimodal desenvolvido especificamente para o Applica, que processa consultas de linguagem para fornecer saídas. A Snowflake disse que está trabalhando para expandir esse sistema para cobrir mais tipos de dados não estruturados, mas não disse o que viria a seguir. Observe que os dados não estruturados são muito abrangentes e podem incluir imagens, arquivos de texto, vídeos e muito mais.

A mudança pode desempenhar um papel importante na história de crescimento da Snowflake, já que a IDC estima que mais de 90% dos dados do mundo não serão estruturados nos próximos cinco anos.

Dynamic Table

Tabelas dinâmicas são um novo tipo de tabela no Snowflake que permite que as equipes usem instruções SQL simples para definir declarativamente o resultado de seus pipelines de dados. Além disso, também são atualizadas automaticamente conforme os dados mudam, operando apenas em novas alterações desde a última atualização. O agendamento e a orquestração necessários para alcançar isso também são gerenciados de forma transparente pelo Snowflake.

Resumindo, as tabelas dinâmicas simplificam significativamente a experiência de criar e gerenciar pipelines de dados e oferecem às equipes a capacidade de criar pipelines de dados de nível de produção com confiança. O recurso foi anunciado durante o Summit 2022 sob o nome de “tabelas materializadas” (desde então renomeado). Agora, as tabelas dinâmicas estão disponíveis em visualização privada.

Anteriormente, um engenheiro de dados usaria fluxos e tarefas junto com o gerenciamento manual dos objetos de banco de dados (tabelas, fluxos, tarefas, código SQL DML) para criar um pipeline de dados no Snowflake. Mas, com as tabelas dinâmicas, os pipelines de dados ficam muito mais fáceis. Confira o diagrama ao lado:

As tabelas dinâmicas são atualizadas à medida que os objetos de banco de dados subjacentes mudam. O controle de alterações deve ser ativado em todos os objetos subjacentes usados ​​por uma tabela dinâmica. O Snowflake tentará ativar o controle de alterações em todos os objetos subjacentes quando uma tabela dinâmica for criada. No entanto, o usuário que cria a tabela dinâmica pode não ter privilégios suficientes para habilitar o controle de alterações em todos os objetos subjacentes.

Para evitar erros ao atualizar tabelas dinâmicas, use SHOW VIEWSSHOW TABLES e comandos semelhantes e examine a coluna CHANGE_TRACKING para determinar se o controle de alterações está ativado para um objeto de banco de dados específico.

Container Services

Entre os anúncios inovadores, os serviços de container prometem abordar as limitações enfrentadas pelos cientistas de dados e revolucionar a maneira como eles trabalham. Com foco em fornecer uma plataforma de dados unificada para todos os tipos de cargas de trabalho, a Snowflake demonstrou seu compromisso em capacitar os usuários e expandir seus recursos.

Os serviços de container abordam as limitações que os cientistas de dados enfrentam. A capacidade de executar diretamente nos dados sem a necessidade de funções definidas pelo usuário é um divisor de águas para os cientistas de dados que preferem um fluxo de trabalho mais simplificado e eficiente, de acordo com os analistas. A integração de serviços de container no Snowflake fornece aos cientistas de dados a liberdade e a flexibilidade que desejam, abrindo novas possibilidades no processamento.

“São os serviços de containers que revelam o processamento da Snowflake”, disse Baer. “Basicamente, aborda todas as limitações das quais os cientistas de dados estavam reclamando. Eles não querem trabalhar com UDFs. Eles querem executar diretamente nos dados e, com os serviços de contêiner, você pode fazer exatamente isso”.

Generative AI com LLM

No final de maio, a Snowflake adquiriu a Neeva, um fornecedor de mecanismos de busca cuja plataforma era alimentada por IA generativa e tecnologia LLM. Agora, revelou um roteiro focado diretamente em permitir que os clientes acessem a IA generativa.

Christian Kleinerman, vice-presidente sênior de produtos da Snowflake, afirmou durante uma coletiva de imprensa virtual em 22 de junho que a IA generativa agora é a prioridade do fornecedor. “Queremos ser a plataforma preferida para a construção de experiências generativas de IA, assistentes, co-pilotos e aplicativos de usuário”, disse ele.

Para esse fim, a Snowflake está fazendo parceria com a Nvidia, especialista em software e hardware de IA. Sua plataforma NeMo foi projetada para permitir que os usuários construam seus próprios LLMs e, além disso, também fornece GPUs que permitem aos usuários incorporar IA generativa em aplicativos em nuvem.

Por meio da parceria entre a Snowflake e a Nvidia, os clientes da Snowflake poderão usar as ferramentas da parceira para criar seus próprios aplicativos generativos de IA na nuvem de dados da Snowflake, que fornece medidas integradas de segurança e governança que as plataformas generativas públicas de IA e LLM não possuem.

Junto com sua parceria com a Nvidia, a Snowflake revelou planos para atualizar o Snowpark, sua plataforma para desenvolvedores, e deixou clara a intenção de ajudar seus clientes a construir suas próprias capacidades generativas com vários parceiros. O Snowpark Container Services será o veículo através do qual os desenvolvedores poderão acessar com segurança os recursos da Nvidia, bem como uma variedade de outros recursos de IA e aprendizado de máquina que eles podem incorporar em seus aplicativos de dados.

Dado seu papel como ponto de acesso para as integrações do Snowflake com ferramentas generativas de IA e LLM, o eventual lançamento do Snowpark Container Services é um movimento bem-vindo para os clientes da Snowflake, de acordo com Henschen.

“O anúncio do Snowpark Container Services é um ponto central para os anúncios de parceria com a Nvidia e outros parceiros”, disse Henschen. “Isso torna o Snowpark Container Services um importante catalisador para muitos dos recursos que estão sendo prometidos”.

Além do que o Snowpark Container Services promete quando disponível ao público, ele também servirá como plataforma da Snowflake para adição de novos recursos de IA e LLM para desenvolvedores, de acordo com Torsten Grabs, Diretor Sênior de Gerenciamento de Produtos da Snowflake.

Soluções para testar e acompanhar de perto

Introdução ao LLM

Snowflake e Nvidia

Com as duas aquisições recentes, Neeva e Streamlit, será mais fácil pesquisar e criar aplicativos com base nos dados. Com o anúncio do novo serviço de container e da parceria com a Nvidia, a Snowflake pretende facilitar a criação de aplicativos generativos de IA, usando todos os dados e executando-os nas GPUs da Nvidia.

Christian Kleinerman diz que o objetivo é permitir que as pessoas usem os dados sem ter que copiá-los e movê-los para um aplicativo externo. “Queremos permitir que nossos clientes tragam computação para seus dados corporativos e não precisem enviar seus dados corporativos para todos os tipos de sistemas externos”, disse Kleinerman ao TechCrunch.

A empresa está apresentando o Snowpark Container Services, juntamente com a capacidade de executar aplicativos em containers em GPUs Nvidia, tudo sem mover nenhum dado para fora do Snowflake. “Estamos oferecendo aos clientes e parceiros a capacidade de executar containers Docker dentro do perímetro de segurança do Snowflake, dando a eles acesso controlado aos dados corporativos que residem ali”, disse Kleinerman.

“A maneira como estamos apresentando esses serviços de containers é fornecendo flexibilidade de instância mais ampla por meio do que o Snowflake já oferece tradicionalmente e, obviamente, o maior vetor de flexibilidade para o qual recebemos solicitações é o acesso a GPUs”, disse ele, que é onde a parceria Nvidia entra em jogo. O VP de Computação Corporativa da Nvidia, Manuvir Das, diz que vê o Snowflake como um local onde as empresas armazenam seus principais dados e, quando você pode criar aplicativos com base nesses dados e, em seguida, executar esses aplicativos nas GPUs da Nvidia, temos uma combinação muito poderosa, especialmente quando você traz IA generativa para a equação.

Manuvir reforça que, quando você combina o poder da GPU da Nvidia com sua estrutura NeMo, as empresas podem pegar os dados no Snowflake e começar a construir modelos refinados de aprendizado de máquina com base em seus próprios dados exclusivos. “É por isso que essa parceria é linda, porque o Snowflake tem todos esses dados e agora, pela primeira vez, tem o mecanismo para executar diferentes softwares com esses dados. Temos aquele agente de execução no NeMo que a Nvidia construiu para treinamento, para ajuste fino, para aprendizado por reforço e tudo mais”, disse Das.

O executivo ainda afirma que, reunir os dados dos clientes, os modelos que eles criaram usando esses dados e, em seguida, os aplicativos que eles estão executando que acessarão esses modelos, tudo em um só lugar, tornará mais fácil manter a segurança e controle desses dados, e a tecnologia Nvidia apenas torna tudo mais rápido.

O Snowpark Container Services da Snowflake já está disponível em versão beta privada.

Streamlit e Snowflake

SnowViz

Ainda prematuro, mas já em evolução, o SnowViz é uma solução de visualização para análise de dados self service para o Snowflake. Utilizando a base do Streamlit de forma menos dependente de Python e mais focada em análises like Power BI, apresenta-se como uma alternativa futura com menor custo.

Native Application (public preview)

O Snowflake Native App Framework (public preview na AWS) agora está disponível para desenvolvedores que desejam criar e testar Snowflake Native Apps.

Com mais de 25 novos apps disponíveis para instalação, Snowflake Native Apps inaugura uma nova era de colaboração de dados, permitindo aos desenvolvedores as ferramentas necessárias para criação rápida de aplicativos robustos com a alta disponibilidade e escalabilidade automática do Snowflake. Desse modo, ajudando a eliminar obstáculos de segurança e privacidade para os clientes, uma vez que os aplicativos são executados diretamente em seu Snowflake, desbloqueando fluxos de receita totalmente novos e permitindo que milhares de clientes do Snowflake descubram e instalem facilmente esses apps, sem precisar mover ou expor seus dados. 

Com faturamento de evento personalizado (visualização pública) e monetização na plataforma (disponibilidade geral) por meio do Snowflake Marketplace, as organizações podem distribuir e monetizar seus aplicativos sem a necessidade de configurar sistemas de cobrança de alto custo. Esse modelo nativo de implantação e distribuição reinventa a abordagem tradicional de copiar dados para aplicativos, em vez de trazer o trabalho para os dados, permitindo que os aplicativos sejam executados dentro da conta Snowflake existente de um usuário final. Os clientes não precisam mais exportar ou fornecer acesso externo aos seus dados, acelerando significativamente o caminho para a aquisição de clientes e adoção por provedores.

“Cada tipo de aplicativo de dados historicamente exige que os clientes movam ou copiem seus dados e os confiem a fornecedores terceirizados, o que é particularmente problemático quando os dados do cliente são altamente confidenciais. O Snowflake Native App Framework reinventa o status quo, permitindo que os desenvolvedores levem seus aplicativos diretamente para os dados, sem que estes saiam do ambiente do cliente”, disse Christian Kleinerman, SVP de Produtos da Snowflake. “Estamos tornando mais fácil, rápido e eficiente para os desenvolvedores criar e enviar aplicativos líderes em escala, para que eles possam se concentrar em obter receita de algumas das maiores empresas da nuvem de dados, com o Snowflake cuidando da segurança, privacidade e questões de governança”.

Iceberg Table

Iceberg é um formato de alto desempenho para grandes conjuntos de dados analíticos, independente de mecanismo e de código aberto, que fornece metadados avançados sobre os arquivos em um depósito de armazenamento em nuvem. Em 2022, a Snowflake uniu forças para combinar seus recursos exclusivos com o Apache Iceberg e o Parquet, com objetivo de ajudar os clientes a resolverem alguns desafios comuns que enfrentam com big data, como controle, custo e interoperabilidade.

Este ano, a Snowflake está evoluindo ainda mais a parceria apresentando uma nova oferta chamada Snowflake Iceberg Tables, que estenderá o desempenho e a governança da Snowflake aos dados armazenados em formatos abertos, unificando tabelas externas em uma tabela Iceberg (visualização privada em breve). Os clientes, portanto, obtêm a simplicidade de um único tipo de tabela Iceberg com opções para especificar a implementação do catálogo e menos compensações de desempenho.

Tabelas Iceberg gerenciadas permitem leitura e gravação completas do Snowflake e utilizam-no como o catálogo para os mecanismos externos lerem. As tabelas Iceberg não gerenciadas permitem que o Snowflake leia tabelas Iceberg de um catálogo externo.

Snowflake e Salesforce

A Salesforce foi considerada por muito tempo como a fonte da verdade. No entanto, nos últimos 5 anos, o número de ferramentas SaaS usadas pelas empresas foi multiplicado por 10. Os dados são díspares em mais ferramentas do que antes (dados analíticos, dados de produtos, dados de marketing, dados financeiros…) e a Salesforce tornou-se menos referência para dados de negócios e clientes.

A primeira geração de ferramentas chamadas CDPs tentou resolver esses problemas. Sua principal proposta de valor era simples: reconsolidar dados (principalmente dados analíticos e do cliente) para possuir uma visão clara das jornadas do cliente, e sincronizá-los novamente com o CRM da empresa. Eles estavam prometendo possuir a fonte da verdade novamente, mas, na verdade, eles cometeram o mesmo erro que os CRMs. Eles não poderiam se adaptar e se ajustar facilmente à complexidade dos dados das organizações. Elas acabavam com um loop infinito de dados que não conseguiam desfazer a mesclagem e fluxos de trabalho automáticos que não conseguiam controlar.

A segunda geração de ferramentas, chamada Reverse ETL, abordou o problema de maneira mais inteligente, aproveitando o aumento da adoção de armazenamento de dados na nuvem. Como o Data Warehouse estava se tornando central nas empresas para visualização de dados, eles aproveitaram o trabalho feito pelos engenheiros de análise para sincronizá-lo de volta ao seu CRM.

Mas, quem é o melhor candidato para resolver todas essas limitações? Seu armazém de dados. Em vez de tentar empurrá-lo e formatá-lo em outra ferramenta que você não domina/controla, por que não usar apenas esses modelos que você ou sua equipe construíram enquanto permaneceram no depósito?

Por isso, é possível que o Data Warehouse e especialmente a Snowflake sejam concorrentes perigosos para a Salesforce nos próximos anos. E ambos conhecem seus pontos fortes e fracos. Snowflake possui os dados e Salesforce, a interface de vendas. De um lado, a Salesforce assinou uma parceria para facilitar o compartilhamento de dados. Por outro lado, a Snowflake anunciou o lançamento do Unistore e do Native Application Framework, que mostram seu interesse em não ser mais considerado apenas um Data Lakehouse. Sua ambição é se tornar um sistema de operação de dados com um mercado e definir um novo padrão para o software se comunicar e acessar os dados.

O Snowpark ML é um conjunto de ferramentas, incluindo SDKs e infraestrutura subjacente, para criação e implantação de modelos de aprendizado de máquina. Com o Snowpark ML, é possível pré-processar dados, treinar, gerenciar e implantar modelos de ML, tudo dentro do Snowflake. Você se beneficia do desempenho, escalabilidade, estabilidade e governança comprovados do Snowflake em todas as etapas do fluxo de trabalho de aprendizado de máquina.

Além disso, o Snowpark ML funciona com Snowpark Python, permitindo que você use Snowpark DataFrames para manter seus dados de treinamento ou teste e receber seus resultados de previsão.

Você pode usar o Snowpark ML ao escrever aplicativos Snowpark Python em um IDE compatível de sua escolha.

A triggo.ai é parceria da Snowflake no Brasil e oferece serviços especializados para você construir uma Modern Data Stack que realmente acelera a estratégia Data Driven da sua organização, reduzindo custos.

Saiba como podemos ajudar sua empresa a implementar Snowflake.