Gartner prevê queda de 90% no custo de inferência de grandes modelos de IA até 2030

Eficiência dos LLMs deve ser 100 vezes superior à de 2022, mas demanda explosiva por tokens e sistemas agênticos impedirá a redução dos gastos totais das empresas

Até 2030, o custo para realizar inferências em modelos de linguagem com 1 trilhão de parâmetros cairá mais de 90% em relação a 2025. Segundo o Gartner, os modelos do futuro serão até 100 vezes mais eficientes do que as versões de tamanho semelhante desenvolvidas em 2022.

Os resultados projetados são divididos em dois conjuntos de cenários de semicondutores: Cenários de ponta (frontier) e Cenários de combinação legada (legacy blend). Os custos modelados nos cenários de previsão de “combinação” são consideravelmente mais elevados do que nos cenários de “ponta”, devido à menor capacidade computacional.

A redução será impulsionada por avanços em semicondutores, silício especializado para inferência e o uso de dispositivos de borda (edge). “Essas melhorias virão de inovações no design de modelos e maior utilização dos chips”, afirma Will Sommer, Diretor Analista Sênior do Gartner. O estudo analisa cenários de “ponta”, com chips de última geração, e de “combinação legada”, onde os custos permanecem elevados devido à menor capacidade computacional.

Apesar da queda no custo unitário do token, unidade de dados que processa cerca de 4 caracteres, a economia não será totalmente repassada às empresas. Isso ocorre porque a inteligência de ponta exigirá muito mais volume de processamento. Modelos agênticos, por exemplo, consomem de 5 a 30 vezes mais tokens por tarefa do que um chatbot padrão, executando funções de forma autônoma e intensiva.

Como o consumo de tokens cresce mais rápido do que a queda dos custos, a previsão é que os gastos gerais com inferência aumentem. “Os CPOs não devem confundir a deflação de tokens básicos com a democratização do raciocínio de ponta”, alerta Sommer. Ele ressalta que a capacidade computacional para suportar o raciocínio avançado permanecerá escassa, desafiando quem mascara ineficiências arquitetônicas com tokens baratos hoje.

O valor estratégico será gerado por plataformas capazes de orquestrar cargas de trabalho em portfólios diversificados. Tarefas rotineiras e de alta frequência devem ser direcionadas a modelos pequenos e específicos de domínio (SLMs), que oferecem melhor desempenho por uma fração do custo. Já a inferência dispendiosa de modelos de ponta deve ser reservada exclusivamente para raciocínios complexos e de alta margem.

Destaques

Conteúdos Relacionados

Varejo

Menu

Gartner prevê queda de 90% no custo de inferência de grandes modelos de IA até 2030

Gartner prevê queda de 90% no custo de inferência de grandes modelos de IA até 2030

Destaques

Conteúdos Relacionados

80% dos governos usarão agentes de IA para decisões rotineiras até 2028

94% dos CIOs ampliaram investimentos em IA, mas adoção está rápida demais

Veja mais entrevistas da Bastidores da TI clicando aqui!

Maior portal de Segurança da Informação e Cibernética do Brasil

Sua marca no único portal de Segurança da Informação e Cyber Security do País

Inscreva-se na nossa Newsletter

Security Leaders

Próximos Eventos

Eventos realizados

Security Report

Tv Security

Executive Report

Decision Report

Quem somos

Política de Privacidade

Quero patrocinar

Contato

Menu

Gartner prevê queda de 90% no custo de inferência de grandes modelos de IA até 2030

Gartner prevê queda de 90% no custo de inferência de grandes modelos de IA até 2030

Destaques

Conteúdos Relacionados

Maior portal de Segurança da Informação e Cibernética do Brasil

Sua marca no único portal de Segurança da Informação e Cyber Security do País

Inscreva-se na nossa Newsletter

Maior portal de Segurança da Informação e Cibernética do Brasil

Sua marca no único portal de Segurança da Informação e Cyber Security do País