Edit Content

Menu

Treinamento, Inferência e RAG – Um novo horizonte para a IA

Treinamento, Inferência e RAG – Um novo horizonte para a IA

O potencial da IA ​​é quase inimaginável. No entanto, para que os modelos de IA sejam entregues, é necessária uma abordagem cuidadosa em todo o treinamento, seja fundamental ou de ajuste fino, para resultar em inferência precisa e escalável. A adoção do RAG pode ser alavancada para melhorar ainda mais a qualidade da saída

Compartilhar:

Share on facebook
Share on twitter
Share on linkedin
Share on email
Share on whatsapp

Por Patrick Smith*

 

O dia 30 de novembro de 2022 foi monumental. Essa é a data em que o ChatGPT foi lançado para o mundo pela OpenAI, o resto é história; literalmente. Já se passaram dois anos desde então e vimos um aumento meteórico no interesse em IA. Isso levou a um aumento de quase 10x na capitalização de mercado da Nvidia, a principal fabricante de GPUs, e previsões selvagens em torno do potencial investimento total de empresas em IA, bem como o impacto que isso terá na sociedade.

 

Isso parece muito diferente dos adventos anteriores da IA ​​que vimos nos últimos 70 anos, desde o Teste de Turing, derrotas de grandes mestres do xadrez, direção autônoma e agora a explosão da IA ​​generativa. O jogo mudou, mas ainda é baseado em certos conceitos fundamentais. Por muitos anos, os avanços da IA ​​foram construídos em três desenvolvimentos principais; 1) recursos de computação mais poderosos – na forma de GPUs; 2) algoritmos ou modelos aprimorados – no caso da IA ​​generativa, a arquitetura Transformer e os grandes modelos de linguagem (LLMs) e, finalmente; 3) acesso a grandes quantidades de dados. Em um nível muito alto, as fases de um projeto de IA incluem coleta e preparação de dados, desenvolvimento e treinamento de modelos e implementação de modelos, também conhecida como inferência.

 

É tudo sobre os dados
A coleta e a preparação de dados não podem ser negligenciadas: dados de boa qualidade, relevantes e imparciais são essenciais para o sucesso de um projeto de IA. É frequentemente citado que as empresas são desafiadas a entender seus dados, identificar a propriedade dos dados e quebrar silos para permitir que esses dados sejam usados ​​de forma eficaz. Sem acesso a dados de alta qualidade, é improvável que uma iniciativa tenha sucesso. Cada vez mais, as empresas estão usando dados multimodais, não apenas texto, mas também áudio, imagens e até mesmo vídeo em seus projetos de IA. A quantidade de dados e, portanto, os requisitos de armazenamento, são significativos.

 

Treinamento de modelos
A fase de treinamento é geralmente abordada de duas maneiras. O treinamento de modelo fundamental, que envolve alavancar uma enorme quantidade de dados, construir um modelo de IA do zero e treiná-lo iterativamente para produzir um modelo geral para uso. Isso é normalmente realizado por grandes empresas de tecnologia com muitos recursos.

 

Inclusive, a Meta falou recentemente sobre treinar seu modelo de parâmetro de código aberto Llama 3.1 de 405 bilhões com mais de 15 trilhões de tokens, e é relatado que isso levou cerca de 40 milhões de horas de GPU em 16.000 GPUs. Esse longo tempo de treinamento do modelo destaca um aspecto fundamental para treinar modelos grandes: checkpoints frequentes para permitir a recuperação de falhas. Com modelos grandes, é essencial que o armazenamento usado para checkpoints tenha desempenho e capacidade de gravação muito avançados.

 

A segunda abordagem de treinamento é o ajuste fino do modelo. Isso significa pegar um modelo existente, no qual outra empresa já fez o trabalho pesado, e aplicar dados específicos do domínio a esse modelo por meio de treinamento adicional. Dessa forma, uma empresa se beneficia de seu próprio modelo personalizado, mas não precisa treiná-lo do zero.

 

Seja qual for a abordagem, o treinamento requer processamento massivo paralelo com GPUs, requer alta taxa de transferência e velocidades de acesso para lidar com grandes conjuntos de dados de forma eficiente. O armazenamento de dados para treinamento de IA deve, portanto, fornecer desempenho muito alto para manter as GPUs alimentadas com dados, escalabilidade para gerenciar grandes conjuntos de dados de treinamento e confiabilidade, dada a importância e o custo dos modelos de treinamento.

 

A hora da produção
Depois que um modelo é treinado e seu desempenho atende aos requisitos, ele é colocado em produção. Este é o momento no qual o modelo usa dados que não viu antes para tirar conclusões ou fornecer insights. Isso é conhecido como Inferência e é quando o valor é derivado de uma iniciativa de IA. O uso de recursos e o custo associados à inferência superam os do treinamento porque a inferência tem demandas de computação e armazenamento em uma base constante e potencialmente em grande escala; pense em milhões de usuários acessando um chatbot para atendimento ao cliente.

 

O armazenamento para inferência deve fornecer alto desempenho, pois isso é essencial para fornecer resultados oportunos, bem como fácil dimensionamento para atender aos requisitos de armazenamento dos dados que estão sendo alimentados no modelo para manutenção de registros e para fornecer dados de retreinamento.

 

A qualidade dos resultados da inferência está diretamente relacionada à qualidade do modelo treinado e do conjunto de dados de treinamento. A IA generativa gerou uma reviravolta na precisão da inferência, a natureza da IA ​​generativa significa que imprecisões são altamente prováveis, conhecidas como alucinações. Essas imprecisões causaram problemas que frequentemente aparecem nas notícias.

 

Mais precisão
Os usuários do ChatGPT perceberão a importância da consulta inserida no modelo. Uma consulta abrangente bem estruturada pode resultar em uma resposta muito mais precisa do que uma pergunta curta. Isso levou ao conceito de “engenharia de prompt”, em que um grande conjunto de dados bem elaborado é fornecido como consulta ao modelo para produzir o output ideal.

 

Uma abordagem alternativa que se torna cada vez mais importante é a geração aumentada de recuperação, ou RAG. O RAG aumenta a consulta com os próprios dados de uma empresa na forma de contexto específico do caso de uso, vindo diretamente de um banco de dados vetorial, como Chroma ou Milvus. Comparado à engenharia de prompt, o RAG produz resultados aprimorados e reduz significativamente a possibilidade de alucinações. Igualmente importante é o fato de que dados atuais e oportunos podem ser usados ​​com o modelo em vez de serem limitados a dados temporais.

 

O RAG depende da vetorização dos dados de uma empresa, e permite que sejam integrados à arquitetura geral. Os bancos de dados vetoriais geralmente veem um crescimento significativo no tamanho do conjunto de dados em comparação com a fonte, até 10x, e são muito sensíveis ao desempenho, dado que a experiência do usuário está diretamente relacionada ao tempo de resposta da consulta do banco de dados vetorial. Como tal, o armazenamento subjacente em termos de desempenho e escalabilidade tem um papel importante na implementação bem-sucedida do RAG.

 

O enigma da energia da IA
Nos últimos anos, os custos de eletricidade dispararam em todo o mundo, sem sinais de desaceleração. Além disso, a ascensão da IA ​​generativa significa que as necessidades de energia dos data centers aumentaram muitas vezes. Na verdade, a AIE estima que o uso de energia da IA, dos data centers e das criptomoedas representou quase 2% da demanda global de energia em 2022 — e que essas demandas podem dobrar até 2026. Isso se deve em parte às altas demandas de energia das GPUs que sobrecarregam os data centers, exigindo de 40 a 50 quilowatts por rack — muito além da capacidade de muitos data centers.

 

A eficiência de condução em todo o data center é essencial, o que significa que a infraestrutura, como o armazenamento de dados all-flash, é crucial para gerenciar energia e espaço, pois cada Watt economizado em armazenamento pode ajudar a alimentar mais GPUs. Com algumas tecnologias de armazenamento all-flash, é possível obter até 85% de redução no uso de energia e até 95% menos espaço em rack do que as ofertas concorrentes, fornecendo valor significativo como uma parte fundamental do ecossistema de IA.

 

Storage: a peça do quebra-cabeça da IA
O potencial da IA ​​é quase inimaginável. No entanto, para que os modelos de IA sejam entregues, é necessária uma abordagem cuidadosa em todo o treinamento, seja fundamental ou de ajuste fino, para resultar em inferência precisa e escalável. A adoção do RAG pode ser alavancada para melhorar ainda mais a qualidade da saída.

 

Está claro que em todos os estágios os dados são um componente-chave, o armazenamento flash é essencial para fornecer o impacto transformador da IA ​​nos negócios e na sociedade, oferecendo desempenho, escalabilidade e confiabilidade incomparáveis. A tecnologia flash oferece suporte aos requisitos da IA ​​de acesso em tempo real a dados não estruturados, facilitando o treinamento e a inferência, ao mesmo tempo que reduz o consumo de energia e as emissões de carbono, tornando-se vital para uma infraestrutura de IA eficiente e sustentável.

 

*Patrick Smith é CTO da Pure Storage para EMEA