O que é Large Language Model ou LLM?
Um LLM é uma arquitetura de modelo de rede neural baseada em um componente específico, chamado Transformer AI.
As tecnologias de transformers foram originalmente desenvolvidas pela Google em 2017 e, desde então, têm sido objeto de intensa pesquisa e desenvolvimento.
Descritos pela primeira vez em um artigo de 2017 da Google, os transformers estão entre os modelos mais novos e potentes já inventados até hoje. Eles estão impulsionando uma onda de avanços em machine learning.
Pesquisadores de Stanford chamaram os transformers de “modelos de fundação” em um artigo de agosto de 2021, porque os veem impulsionando uma mudança de paradigma na IA.
A escala e o escopo dos modelos de fundação nos últimos anos expandiram nosso entendimento do que é possível.
Qualquer aplicação que use dados sequenciais de textos, imagens ou vídeos é uma candidata a modelos transformer.
Isso permite que esses modelos andem em um ciclo virtuoso na AI de transformers. Criados com grandes conjuntos de dados, os transformers fazem previsões precisas que impulsionam seu uso mais amplo, gerando mais dados que podem ser usados para criar modelos ainda melhores.
Os LLMs trabalham revisando enormes volumes de textos, identificando as maneiras como as palavras se relacionam e construindo um modelo que permita a reprodução de textos semelhantes.
É importante ressaltar que, quando fazem uma pergunta, eles não estão “procurando” uma resposta.
Em vez disso, eles estão produzindo uma sequência de palavras ao prever qual palavra seguiria melhor a anterior, levando em consideração o contexto mais amplo das palavras anteriores a ela. Em essência, eles estão fornecendo uma resposta de “senso comum” a uma pergunta.
Embora os LLMs mais poderosos tenham mostrado sua capacidade de produzir respostas amplamente precisas em uma gama surpreendentemente ampla de tarefas, a precisão factual dessas respostas não pode ser garantida.
O que torna um LLM grande?
Uma rede neural é composta por um grande número de “neurônios”, que são fórmulas matemáticas simples que passam os resultados de seus cálculos para um ou mais neurônios do sistema. As conexões entre esses neurônios recebem “pesos” que definem a força do sinal entre os neurônios. Às vezes, esses pesos também são chamados de parâmetros.
Um dos modelos por trás do GPT-4 tem trilhões de parâmetros.
A dimensão destes modelos tem consequências importantes para o seu desempenho, mas também o custo e a complexidade da sua utilização. Por um lado, modelos maiores tendem a produzir textos mais semelhantes aos humanos e são capazes de lidar com tópicos para os quais podem não ter sido especificamente preparados. Por outro lado, construir o modelo e usar o modelo é extremamente intensivo em termos computacionais. Não é por acaso que os modelos maiores e de melhor desempenho vêm de empresas gigantes de tecnologia ou startups financiadas por essas empresas.
O desenvolvimento desses modelos provavelmente custa bilhões de dólares em computação em nuvem.
Comparações entre LLMs e outros métodos
O uso de LLMs pode ser computacionalmente intensivo. No caso de um modelo com trilhões de pesos, para cada “token” (que é uma palavra ou parte de uma palavra) que ele gera, é preciso executar trilhões de cálculos a cada vez.
Por que LLM, então? Especialmente quando um modelo de linguagem menor é muito bom na tarefa para a qual foi projeto?
Os modelos maiores são como um smartphone: eles são convenientes porque reúnem muitas funcionalidades em um único produto.
Isso significa que você pode usar o mesmo modelo para uma variedade de tarefas. Ele pode traduzir, pode resumir, pode gerar texto com base em algumas entradas. Como um smartphone, é a única solução de que você precisa para lidar com uma vasta gama de tarefas, embora essa flexibilidade tenha um preço. Se tudo o que você precisa é de um cronômetro, você pode encontrar uma opção muito mais barata do que um smartphone.
Da mesma forma, se você precisar de uma solução para uma tarefa específica, talvez seja melhor selecionar um modelo pequeno e específico para a tarefa.
Identificando um caso de uso para LLM
Se você estiver interessado em testar a utilidade de um LLM dentro de sua organização, procure uma aplicação que equilibre o seguinte:
Tolerância de risco
Se esta é a primeira vez que você está usando esta tecnologia, escolha um domínio onde haja uma certa tolerância ao risco. A aplicação não deve ser crítica para as operações da organização e deve, ao contrário, buscar proporcionar comodidade ou ganho de eficiência às suas equipes.
Revisão humana
Um escritório de advocacia se sente confortável em usar essa tecnologia para criar uma primeira minuta de um contrato, da mesma forma que se sentiria confortável em delegar essa tarefa a um associado júnior. Isso ocorre porque qualquer documento desse tipo passará por muitas rodadas de revisão posteriormente, minimizando o risco de que algum erro possa passar despercebido.
Texto (ou código) intensivo
É importante se apoiar nos pontos fortes desses modelos e configurá-los para trabalhar em tarefas intensivas em texto ou em código, em particular aquelas que são “ilimitadas”, como gerar sentenças ou parágrafos de texto. Isso contrasta com as tarefas “limitadas”, como a análise de sentimento, em que as ferramentas existentes e criadas para fins específicos fornecerão excelentes resultados com menor custo e complexidade.
Valor do negócio
Como sempre, e talvez especialmente quando há muito entusiasmo em torno de uma nova tecnologia, é importante voltar ao básico e perguntar se o aplicativo é realmente valioso para os negócios. Os LLMs podem fazer muitas coisas, se essas coisas são valiosas ou não, é uma questão a ser bem avaliada.
Modelos de linguagem
O texto é o domínio mais avançado. No entanto, a linguagem natural é difícil de manter precisa e a qualidade é importante. Hoje, os modelos são muito bons na escrita genérica de formato curto/médio (mas, mesmo assim, eles são normalmente usados para iteração ou primeiros rascunhos). Com o tempo, à medida que os modelos melhoram, devemos esperar resultados de maior qualidade, conteúdo de formato mais longo e melhor ajustes.
A geração de código provavelmente terá um grande impacto na produtividade do desenvolvedor no curto prazo, conforme mostrado pelo GitHub CoPilot. Também tornará o uso criativo do código mais acessível para não desenvolvedores.
As imagens são um fenômeno mais recente, mas se tornaram virais: é muito mais divertido compartilhar imagens geradas no Twitter do que texto! Assistimos ao advento de modelos de imagens com diferentes estilos estéticos e diferentes técnicas de edição e modificação das imagens geradas.
O Speech synthesis já existe há algum tempo (olá, Siri!), mas as aplicações para consumidores e empresas estão ficando melhores. Para soluções de ponta, como filmes e podcasts, a barra é bastante alta para uma fala de qualidade humana que não soa mecânica. Mas, assim como acontece com as imagens, os modelos de hoje fornecem um ponto de partida para maior refinamento ou output final para aplicativos utilitários.
Os modelos de vídeo e 3D estão crescendo rapidamente. As pessoas estão entusiasmadas com o potencial desses modelos para abrir grandes mercados criativos, como cinema, jogos, realidade virtual, arquitetura e design de produtos físicos. As organizações de pesquisa estão lançando modelos 3D e de vídeo fundamentais enquanto falamos.
Outros domínios: Existe um modelo fundamental de P&D acontecendo em muitos campos, desde áudio e música até biologia e química (proteínas e moléculas generativas).
Entenda mais sobre a GenAI e continue navegando nesta incrível jornada tecnológica que está redefinindo os limites da criatividade e da inovação:
A triggo.ai vem atuando na fronteira deste desafio, implementando soluções robustas e inovadoras de IA Generativa e aplicando metodologias de Data Products Management para elevar e acelerar a jornada Data Driven das organizações. Fale com um de nossos consultores especialistas!