O OpenAI introduziu o Processamento Flex, um nível distinto de serviço de API destinado a desenvolvedores que procuram maneiras mais econômicas de usar os modelos de raciocínio O3 e O4-mini da empresa. Oficialmente anunciado em 17 de abril de 2025 e atualmente disponível na versão beta, essa opção reduz significativamente os custos por toque em comparação com as taxas de API padrão, tornando a IA avançada potencialmente mais acessível para determinadas aplicações, embora venha com trade-offs de desempenho. O Documentação de processamento flexível aponta para usar casos como”Avaliações de modelos, enriquecimento de dados e cargas de trabalho assíncronas”como candidatos ideais. É apresentado como uma solução para trabalhos de menor prioridade ou não produção, onde a economia de custos supera a necessidade de velocidade. Para o modelo O3, os desenvolvedores que usam Flex pagarão US $ 5 por milhão de tokens de entrada e tokens de produção de US $ 20 por milhão, uma diminuição acentuada das taxas padrão de US $ 10 e US $ 40, respectivamente. Redução semelhante de 50%, ao preço de US $ 0,55 por milhão de tokens de entrada e tokens de produção de US $ 2,20 por milhão em Flex, em comparação com os US $ 1,10 e US $ 4,40 normais. Essa estrutura de preços se alinha flexiona com as taxas já estabelecidas para a API em lote da OpenAI, oferecendo uma estrutura de custos previsível para tarefas de processamento não-real. O processamento flex opera em uma fila de computação de menor prioridade, o que significa que as respostas da API levarão inerentemente mais do que as solicitações feitas através da camada padrão. Recurso indisponibilidade .”Se o sistema não tiver capacidade suficiente quando uma solicitação flexível chegar, ele retornará um código de erro HTTP de 429. É importante ressaltar que o OpenAI confirmou que os desenvolvedores não serão cobrados por solicitações que falhem com esse erro específico. Para os aplicativos tolerantes a atrasos, recomenda-se a tentativa da solicitação após uma pausa-potencialmente usando a lógica exponencial de retirada-. Se a conclusão oportuna for necessária, voltar à camada da API padrão permanecer uma opção.

Os desenvolvedores também precisam antecipar os tempos de resposta mais lentos em sua lógica de aplicação; O tempo limite padrão de 10 minutos nos SDKs oficiais do OpenAI pode ser insuficiente, e a empresa sugere aumentar esse tempo limite para talvez 15 minutos para solicitações flexíveis. Para ativar esse serviço, os desenvolvedores devem especificar o parâmetro `Service_Tier=”FLEX”` dentro de suas chamadas de API. Raciocínio aprimorado e o que o OpenAI denominou “Comportamento Agêntico precoce”. O Processamento Flex oferece um caminho diferente e mais acessível para os desenvolvedores utilizarem a energia desses modelos via API, adequada para tarefas de back-end em que o custo é um driver primário. Mova para fornecer aos desenvolvedores controle mais granular sobre o custo versus o desempenho. Este lançamento também segue outros lançamentos recentes focados em desenvolvedores do OpenAI, como a ferramenta CLI de código aberto, que também pode aproveitar os modelos O3 e O4-mini.

Os requisitos de acesso API

Acesso programático a esses modelos mais novos. Embora o O4-mini esteja amplamente disponível em vários níveis (1-5), o modelo O3 mais poderoso geralmente exige que os desenvolvedores estejam em camadas de gastos mais altos (4 ou 5). Isso é consistente com as políticas declaradas da OpenAI, destinadas a garantir o uso responsável da plataforma.

Categories: IT Info