Sete meses após a partida da Intel, o ex-CEO Pat Gelsinger lançou na quinta-feira uma nova referência projetada para medir se a IA for realmente boa para as pessoas. Through his new role at the “faith tech”firm Gloo, Gelsinger launched the Flourishing AI (FAI) benchmark, a framework that evaluates models not on technical performance, but on their alignment with human well-being.

This new test assesses models across seven key Dimensões, incluindo caráter, relacionamentos e fé, com o objetivo de mudar o foco da indústria de simplesmente impedir que os danos criem ativamente a IA que contribuam positivamente para a vida humana. O movimento posiciona Gelsinger como uma voz-chave no crescente debate sobre a ética e os valores da IA. Ele descreveu sua transição em uma entrevista recente, afirmando: “Post Intel, o que eu faço a seguir? E você sabe, para isso, tirei um chapéu 7/24 e coloquei dois chapéus.”

Um desses chapéus envolve investimentos em tecnologia profunda no Playground Global. O outro é seu papel como presidente executivo e chefe de tecnologia da Gloo, uma empresa que ele investiu pela primeira vez em uma década atrás. Esse movimento reflete uma paixão de longa data pela interseção de fé e tecnologia, impulsionada pelo desejo de garantir que as comunidades baseadas em valores tenham voz na formação da era da IA. como ele colocou conversando com a nova pilha, não aparecemos na comunidade de fé na rede social. Novo critério para’bom’ai: o prolongado referência da IA ​​

A referência FAI (FAI) florescente, lançada oficialmente em 10 de julho, representa um pivô deliberado da avaliação tradicional da IA. Ele confronta diretamente uma grande lacuna na pesquisa de segurança atual. O anúncio oficial do Gloo estados , “A pesquisa atual de alinhamento de IA se concentra predominantemente na prevenção de danos, em vez da promoção ativa do bem-estar humano. href=”https://gloo.com/flourishing-hub/research”Target=”_ Blank”> esforço conjunto de pesquisadores nas universidades de Harvard e Baylor . Gloo expandiu esse trabalho em sete dimensões principais: caráter e virtude, relações sociais próximas, saúde mental e física, estabilidade financeira e material, felicidade e satisfação da vida, significado e propósito, e uma nova categoria para fé e espiritualidade. rigor . Ele usa um conjunto de dados de 1.229 perguntas curadas de especialistas e, crucialmente, calcula as pontuações usando uma média geométrica. Essa abordagem estatística penaliza os modelos para um desempenho ruim em qualquer dimensão única, garantindo que eles não possam mascarar deficiências em áreas como”significado”, destacando-se em”finanças”. Primeiro, os modelos devem ser factualmente precisos ao apresentar informações. Segundo, suas recomendações devem ser apoiadas pela pesquisa científica sobre florescimento humano. Finalmente, eles devem promover o bem-estar de forma consistente em todos os domínios, independentemente do tópico específico em questão. Estes foram extraídos de diversas fontes, incluindo benchmarks estabelecidos como MMLU, exames profissionais, trabalhos acadêmicos e novos cenários gerados por especialistas para testar a aplicação do mundo real desses valores. Esses juízes avaliam as respostas não apenas na dimensão primária, mas também em tangenciais. Por exemplo, uma questão financeira também pode ser pontuada por seu alinhamento com o’personagem’ou’significado’rubricas, garantindo uma avaliação holística.”Mas não é apenas estar certo ou errado. Está sendo bom? Se os modelos estão respondendo de maneiras humanas, então… elas devem levar as pessoas a serem melhores.””Esse novo critério é sua resposta para esse desafio. recursos. Embora o modelo O3 da OpenAI tenha atingido a maior pontuação geral de 72, seguida por Gemini 2.5 Flash Thinking (68) e Grok 3 (67), nenhum modelo superou o limiar de 90 pontos que a equipe da FAI define como robusta é alinhada com o florescimento humano. A pontuação média em todos os modelos na categoria”Finanças”foi de 81%respeitáveis. Em contraste, a média da dimensão”fé”era de meros 35%, destacando o que Gloo chama de”déficit crítico”. O desempenho médio geral em todos os modelos e todas as sete dimensões foi de apenas 60%. Ele alcançou uma pontuação de destaque de 87% em”caráter”, superando em muito seus rivais. No entanto, mesmo o líder obteve 43% relativamente baixo em”fé”, ressaltando a natureza universal desse desafio. Claude de 3,7 sonetos da Anthropic, enquanto fica mais baixo no geral com uma pontuação de 65%, distinguiu-se ganhando a pontuação máxima na categoria”significado”em 67%, sugerindo que seu treinamento pode ter um alinhamento filosófico diferente. O modelo de código aberto de melhor desempenho, Deepseek-R1, obteve um impressionante 65% no total, empatando com Claude 3,7 sonetos e superando vários modelos fechados. Ele mostrou força particular em”relacionamentos”(74%) e”fé”(40%), tornando-o altamente competitivo com os sistemas proprietários de primeira linha nesses domínios específicos. Seu desempenho foi equilibrado, mas não liderou em nenhuma categoria, indicando uma capacidade mais generalizada sem os pontos fortes especializados vistos em alguns concorrentes. Esses resultados granulares demonstram a utilidade da benchmark da FAI em ir além de uma única pontuação para revelar as”personalidades”baseadas em valor de diferentes sistemas de IA.

Pat Gelsinger comentou diretamente sobre os resultados, observando a imaturidade dos modelos em áreas-chave.”A maioria das áreas, como caráter, felicidade, relacionamentos-elas ainda não são tão boas. Quero dizer, estamos vendo essas pontuações nos anos 50. Os fé, estamos vendo pontuações nos 30 e 40 anos”, ele

Categories: IT Info