A Anthropic lançou na quinta-feira uma estrutura de código aberto para medir a “imparcialidade” política em modelos de IA, posicionando seu chatbot Claude em uma corrida em toda a indústria pela neutralidade contra rivais da OpenAI e Meta.

O novo benchmark público da empresa afirma que seus modelos Claude são mais equilibrados do que o GPT-5 da OpenAI e o Llama 4 da Meta.

A iniciativa chega em meio a um intenso escrutínio político sobre o preconceito da IA, destacado por um recente White Ordem executiva da Câmara exigindo “neutralidade ideológica” das empresas de tecnologia. A medida empurra o debate sobre o que constitui uma IA verdadeiramente objetiva para a vanguarda da agenda da indústria.

A estrutura de ‘equidade’ da Anthropic entra na arena do viés da IA

A nova metodologia “Paired Prompts” da Anthropic, detalhada em uma postagem no blog da empresa, tem como objetivo fornecer uma maneira transparente e replicável de avaliar como os modelos de IA lidam com assuntos politicamente sensíveis. tópicos.

Seu objetivo é garantir que os modelos tratem pontos de vista opostos com igual profundidade e qualidade. Em seu anúncio, a Anthropic declarou: “Queremos que Claude adote uma abordagem imparcial quando se trata de política.”

A estrutura avalia os modelos com base em três critérios principais: se eles se envolvem com sugestões de ideologias opostas de maneira equilibrada, se reconhecem contra-argumentos e com que frequência se recusam a responder.

O sistema foi projetado para capturar formas sutis de preconceito além de simples erros factuais.

De acordo com os resultados publicados pela própria Anthropic, seus modelos mais capazes, Claude Opus 4.1 e Sonnet 4.5, pontuaram 95% e 94% na métrica de imparcialidade, respectivamente.

Essas pontuações os colocam um pouco atrás do Gemini 2.5 Pro do Google (97%) e do Grok 4 da xAI (96%). No entanto, a avaliação mostra que Claude superou significativamente o mais recente modelo GPT-5 da OpenAI, que obteve 89%, e o Llama 4 da Meta, que ficou consideravelmente abaixo de 66%.

Resultados de imparcialidade em Claude e outros modelos (Fonte: Anthropic)

Ao abrir o código-fonte de sua avaliação, a Anthropic está convidando ao escrutínio enquanto pressiona por um padrão de medição comum para toda a indústria.

A Fractured Indústria: filosofias concorrentes sobre a neutralidade da IA

O anúncio é o movimento mais recente em uma luta mais ampla em toda a indústria para definir e gerenciar o preconceito da IA, com cada grande laboratório adotando uma estratégia distinta.

No mês passado, a OpenAI lançou sua própria estrutura detalhada, alegando ter alcançado uma redução de 30% no preconceito político para o GPT-5.

A posição oficial da OpenAI é que “ChatGPT não deveria ter política preconceito em qualquer direção.”Sua abordagem se concentra em identificar e mitigar cinco “eixos” específicos de preconceito: invalidação de usuários, escalonamento de usuários, expressão política pessoal, cobertura assimétrica e recusas políticas, conforme detalhado em sua pesquisa.

Este método visa criar uma visão holística do comportamento do modelo sob pressão.

Enquanto concorrentes como a Meta se concentram em corrigir resultados percebidos de tendência à esquerda, a Anthropic e a OpenAI estão construindo ferramentas de medição.

Resultados de perspectivas opostas em Claude e outros modelos (Fonte-Anthropic)

Em abril, a Meta anunciou que estava ajustando ativamente seus modelos Llama 4 para neutralizar o que descreveu como uma distorção histórica.

Em seu anúncio, a Meta afirmou: “É bem sabido que todos os LLMs líderes têm tiveram problemas com preconceitos-especificamente, eles historicamente se inclinaram para a esquerda quando se trata de tópicos políticos e sociais debatidos.”

Essa filosofia de reajuste ativo, que visa apresentar”ambos os lados”, contrasta fortemente com a abordagem de medição em primeiro lugar de seus rivais e se alinha com uma mudança mais ampla nas políticas de conteúdo da Meta.

A xAI de Elon Musk representa uma terceira abordagem, mais controversa: incorporar deliberadamente um ponto de vista ideológico específico. Descobriu-se que sua recém-lançada Grokipedia copiou páginas da Wikipedia enquanto injetava uma inclinação de direita em tópicos como mudanças climáticas e gênero.

No entanto, a métrica de imparcialidade da Anthropic dá a Grok notas ainda melhores do que Claude e Grok foi encontrado inúmeras vezes corrigindo declarações falsas de Elon Musk.

Parece que Grok está sendo ajustado manualmente para grupos de tópicos muito específicos, ao gosto de Elon Musk.

Grok foi anteriormente pego com instruções para censurar as críticas a Musk e Donald Trump e, em um incidente separado, gerou conteúdo antissemita.

A pressão política e a busca por um padrão da indústria

Em meio à intensa pressão política sobre a objetividade da IA, as empresas de tecnologia estão navegando em um cenário complexo.

A corrida pela neutralidade da IA não é apenas um exercício acadêmico; é uma resposta direta às ameaças regulatórias. Em julho de 2025, a Casa Branca emitiu uma ordem executiva destinada a prevenir a “IA Woke” no governo federal.

A ordem exige “neutralidade ideológica” e instrui o Escritório de Gestão e Orçamento a emitir orientações sobre compras até 20 de novembro.

Isso cria um poderoso incentivo financeiro para que as empresas demonstrem a objetividade de seus modelos e evitem ideologias que os pedidos enquadrem como fonte de preconceito.

Este contexto político torna os padrões transparentes e mensuráveis de preconceito mais críticos do que nunca. No entanto, como a própria Anthropic admite, a tarefa está repleta de ambiguidade.

A empresa reconheceu no seu relatório que “não existe uma definição acordada de preconceito político, nem consenso sobre como medi-lo”.

Diferentes estudos descobriram que os modelos podem parecer tendenciosos simplesmente por aderirem à precisão factual quando os próprios factos são politicamente contestados. Isto realça o desafio principal: a neutralidade de uma pessoa é o preconceito de outra.

Apesar destes desafios, o impulso para um referencial comum está a ganhar impulso. Ao lançar suas ferramentas publicamente, a Anthropic está fazendo uma tentativa de moldar a conversa e estabelecer um padrão confiável.

A empresa espera que seu trabalho leve a um conjunto compartilhado de regras para todo o setor, indo além de avaliações proprietárias e apenas internas.

Como concluiu a Anthropic, “Um padrão compartilhado para medir preconceitos políticos beneficiará toda a indústria de IA e seus clientes”.

Se a indústria pode se unir em torno de uma única definição de justiça permanece uma questão em aberto, mas a questão é: as tentativas de criar uma são agora fundamentais para o futuro do desenvolvimento da IA e da confiança pública.

Categories: IT Info