Edit Content

Menu

shutterstock_248701159_welcomia

Gartner prevê queda de 90% no custo de inferência de grandes modelos de IA até 2030

Gartner prevê queda de 90% no custo de inferência de grandes modelos de IA até 2030

Eficiência dos LLMs deve ser 100 vezes superior à de 2022, mas demanda explosiva por tokens e sistemas agênticos impedirá a redução dos gastos totais das empresas

Compartilhar:

Share on facebook
Share on twitter
Share on linkedin
Share on email
Share on whatsapp

Até 2030, o custo para realizar inferências em modelos de linguagem com 1 trilhão de parâmetros cairá mais de 90% em relação a 2025. Segundo o Gartner, os modelos do futuro serão até 100 vezes mais eficientes do que as versões de tamanho semelhante desenvolvidas em 2022.  

  

Os resultados projetados são divididos em dois conjuntos de cenários de semicondutores: Cenários de ponta (frontier) e Cenários de combinação legada (legacy blend). Os custos modelados nos cenários de previsão de “combinação” são consideravelmente mais elevados do que nos cenários de “ponta”, devido à menor capacidade computacional. 

  

A redução será impulsionada por avanços em semicondutores, silício especializado para inferência e o uso de dispositivos de borda (edge). “Essas melhorias virão de inovações no design de modelos e maior utilização dos chips”, afirma Will Sommer, Diretor Analista Sênior do Gartner. O estudo analisa cenários de “ponta”, com chips de última geração, e de “combinação legada”, onde os custos permanecem elevados devido à menor capacidade computacional. 

  

Apesar da queda no custo unitário do token, unidade de dados que processa cerca de 4 caracteres, a economia não será totalmente repassada às empresas. Isso ocorre porque a inteligência de ponta exigirá muito mais volume de processamento. Modelos agênticos, por exemplo, consomem de 5 a 30 vezes mais tokens por tarefa do que um chatbot padrão, executando funções de forma autônoma e intensiva. 

  

Como o consumo de tokens cresce mais rápido do que a queda dos custos, a previsão é que os gastos gerais com inferência aumentem. “Os CPOs não devem confundir a deflação de tokens básicos com a democratização do raciocínio de ponta”, alerta Sommer. Ele ressalta que a capacidade computacional para suportar o raciocínio avançado permanecerá escassa, desafiando quem mascara ineficiências arquitetônicas com tokens baratos hoje. 

  

O valor estratégico será gerado por plataformas capazes de orquestrar cargas de trabalho em portfólios diversificados. Tarefas rotineiras e de alta frequência devem ser direcionadas a modelos pequenos e específicos de domínio (SLMs), que oferecem melhor desempenho por uma fração do custo. Já a inferência dispendiosa de modelos de ponta deve ser reservada exclusivamente para raciocínios complexos e de alta margem. 

 

Destaques