OpenAI adiciona execução em sandbox ao Agents SDK para fortalecer a governança corporativa de agentes autônomos
A OpenAI anunciou uma atualização significativa do Agents SDK, seu kit de desenvolvimento para a criação de agentes de inteligência artificial autônomos, introduzindo capacidades nativas de execução em sandbox voltadas para equipes de governança empresarial. A novidade permite que organizações implantem fluxos de trabalho automatizados com risco controlado, sem precisar montar manualmente camadas de isolamento de execução. A funcionalidade já está disponível para todos os clientes por meio da interface de programação de aplicações, com precificação baseada no consumo de tokens e uso de ferramentas, dispensando contratos personalizados.
Historicamente, equipes de engenharia enfrentaram escolhas difíceis ao levar sistemas de inteligência artificial do protótipo para a produção. O uso de estruturas agnósticas de modelo, ou seja, frameworks que funcionam independentemente do provedor, oferecia flexibilidade inicial, mas não aproveitava integralmente as capacidades dos modelos mais avançados. Por outro lado, os kits de desenvolvimento específicos de cada provedor de modelo ficavam mais próximos da inteligência subjacente, porém frequentemente careciam de visibilidade adequada sobre os mecanismos de controle. As interfaces de programação gerenciadas simplificavam a implantação, mas limitavam fortemente onde os sistemas podiam executar e como acessavam dados corporativos sensíveis.
Para resolver essas tensões, a OpenAI reconstruiu a infraestrutura do Agents SDK alinhando a execução ao padrão de operação natural dos modelos subjacentes, o que melhora a confiabilidade quando as tarefas exigem coordenação entre sistemas diversos. Essa abordagem denominada model-native harness traz memória configurável, orquestração ciente de sandbox e ferramentas de sistema de arquivos inspiradas no Codex. Desenvolvedores podem integrar primitivas padronizadas, como o uso de ferramentas por meio do protocolo de conectividade de modelos, instruções personalizadas e edições de arquivo utilizando a ferramenta de aplicação de patches, um mecanismo que permite modificações diretas em arquivos de texto.
Um exemplo concreto da eficiência dessa nova arquitetura vem do setor de saúde. A Oscar Health, provedora de planos médicos nos Estados Unidos, testou a infraestrutura atualizada para automatizar um fluxo de trabalho de registros clínicos que abordagens anteriores não conseguiam processar com confiabilidade. A equipe de engenharia precisava que o sistema automatizado extraísse metadados corretos e, ao mesmo tempo, compreendesse com precisão os limites de cada atendimento de paciente dentro de arquivos médicos extensos e complexos. Rachael Burns, engenheira-chefe e líder técnica de inteligência artificial da Oscar Health, afirmou que a versão atualizada tornou viável em produção a automação de um fluxo crítico de registros clínicos que anteriormente não era confiável o suficiente.
Para Rachael Burns, a diferença não se limitou à extração dos metadados corretos, mas incluiu a compreensão precisa dos limites de cada encontro médico em registros longos e elaborados. Com a automação, a provedora pode interpretar históricos de pacientes de forma mais rápida, acelerando a coordenação do cuidado e melhorando a experiência geral dos membros do plano. O caso ilustra como a padronização da infraestrutura de agentes pode transformar processos que dependiam fortemente de trabalho manual, especialmente em setores que lidam com grandes volumes de dados não estruturados.
A integração de um programa autônomo a um parque tecnológico legado exige roteamento preciso e controle rigoroso sobre o que o sistema pode acessar. Quando um processo autônomo lida com dados não estruturados, ele depende intensamente de sistemas de recuperação para obter o contexto relevante sem varrer repositórios inteiros. O SDK introduz uma abstração chamada Manifest, que padroniza a forma como os desenvolvedores descrevem o ambiente de trabalho, permitindo montar arquivos locais e definir diretórios de saída. Essa previsibilidade impede que o sistema consulte lagos de dados sem filtro, restringindo-o a janelas de contexto específicas e validadas.
As equipes podem conectar esses ambientes diretamente a grandes provedores de armazenamento corporativo, como os serviços de armazenamento de objetos das principais nuvens públicas, incluindo opções da Amazon, Microsoft, Google, além da Cloudflare. Isso dá ao modelo parâmetros exatos sobre onde localizar entradas, gravar saídas e manter a organização durante execuções prolongadas. Equipes de governança de dados, por sua vez, conseguem rastrear com maior precisão a procedência de cada decisão automatizada, desde as fases de protótipo local até a implantação em produção.
Na dimensão de segurança, a separação entre a camada de controle e a camada de computação constitui o pilar central da proposta. Essa arquitetura isola as credenciais, mantendo-as totalmente fora dos ambientes onde o código gerado pelo modelo é executado. Em caso de um comando malicioso injetado por meio de técnicas de ataque que manipulam as instruções recebidas pelo modelo, esse comando não consegue acessar o plano de controle central nem roubar chaves de interface de programação, protegendo a rede corporativa contra movimentos laterais de invasores. Essa separação é considerada essencial porque equipes de segurança devem pressupor que qualquer sistema que leia dados externos ou execute código gerado estará sujeito a esse tipo de ameaça.
Além da segurança, a separação de camadas resolve problemas relevantes de custo computacional. Tarefas de longa duração frequentemente falham no meio do processo devido a tempos limite de rede, falhas em contêineres ou limites da interface de programação. Se um agente complexo precisar de vinte etapas para compilar um relatório financeiro e falhar na décima nona, executar novamente toda a sequência consome recursos caros de computação. Com a nova arquitetura, se o ambiente de execução falhar, a perda do contêiner não implica a perda de toda a operação. O SDK utiliza mecanismos internos de captura de estado e restauração, permitindo retomar a execução exatamente do último ponto de verificação em um contêiner novo, o que se traduz diretamente em redução de gastos com computação em nuvem.
O dimensionamento dessas operações conta com alocação dinâmica de recursos, permitindo que execuções invoquem um ou múltiplos ambientes isolados conforme a carga atual, roteiem subagentes específicos para ambientes separados e paralelizem tarefas entre diversos contêineres para tempos de execução mais rápidos. A arquitetura separada viabiliza também a chamada execução progressiva, na qual o sistema executa tarefas complexas de forma sequencial, revelando informações e ferramentas gradualmente conforme a necessidade. Essa padronização permite que as equipes de engenharia dediquem menos tempo à atualização da infraestrutura central e se concentrem na construção de lógica específica do negócio.
As novas capacidades estão disponíveis de forma geral para todos os clientes, sem exigência de contratos de aquisição personalizados. O lançamento inicial é voltado para desenvolvedores que trabalham com a linguagem de programação Python, com suporte para TypeScript previsto em uma versão futura. A OpenAI planeja trazer recursos adicionais às duas bibliotecas, incluindo um modo de código dedicado e a capacidade de utilizar subagentes, que são instâncias secundárias de inteligência artificial coordenadas por um agente principal para divisão de tarefas complexas. A empresa também pretende expandir o ecossistema ao longo do tempo, apoiando mais provedores de sandbox e oferecendo métodos adicionais para que os desenvolvedores conectem o SDK diretamente aos seus sistemas internos já existentes.