Siete meses después de partir de Intel, el ex CEO Pat Gelsinger presentó el jueves un nuevo punto de referencia diseñado para medir si la IA es realmente buena para las personas. A través de su nuevo papel en la firma de”Faith Tech”Gloo, Gelsinger lanzó el floreciente ai (fai) benchmark , un marco que evalúa modelos no en el rendimiento técnico, pero en su alineación con el bienestar humano. Las dimensiones, incluido el carácter, las relaciones y la fe, con el objetivo de cambiar el enfoque de la industria de simplemente evitar daños a crear activamente AI que contribuya positivamente a la vida humana. El movimiento posiciona a Gelsinger como una voz clave en el creciente debate sobre la ética y los valores de la IA.
del CEO de Intel a la ética de AI: la nueva misión de Gelsinger
Después de renunciar como director ejecutivo de Intel en diciembre de 2024 amide presiones financieras y competitivas significativas, Pat Gelsinger ha emprendido en un nuevo capítulo. Describió su transición en una entrevista reciente, declarando:”Post Intel, ¿qué hago a continuación? Y ya sabes, para eso, he quitado un sombrero 7/24 y puse dos sombreros”.
>
Uno de esos sombreros implica una inversión tecnológica profunda en Playground Global. El otro es su papel de presidente ejecutivo y jefe de tecnología en Gloo, una compañía en la que invirtió por primera vez hace una década. Este movimiento refleja una pasión de larga data por la intersección de la fe y la tecnología, impulsada por el deseo de garantizar que las comunidades basadas en los valores tengan una voz en la configuración de la era de la IA. Como él lo expresó hablando con la nueva pila,”No nos presentamos como una comunidad de fe en la red de redes sociales.
Un nuevo criterio de AI”bueno”: el floreciente punto de referencia de IA
El floreciente punto de referencia AI (FAI), lanzado oficialmente el 10 de julio, representa un pivote deliberado de la evaluación tradicional de IA. Se enfrenta directamente a una gran brecha en la investigación de seguridad actual. Como el anuncio oficial de Gloo Estados ,”La investigación de alineación de IA actual predominantemente se centra en la prevención de la prevención de daños en la promoción activa del bienestar humano”. href=”https://gloo.com/flourishing-hub/research”target=”_ en blanco”> esfuerzo conjunto de investigadores en Harvard y Baylor Universities . Gloo amplió este trabajo a siete dimensiones centrales: carácter y virtud, estrechas relaciones sociales, salud mental y física, estabilidad financiera y material, felicidad y satisfacción de la vida, significado y propósito, y una nueva categoría para la fe y la espiritualidad.
el benchmark methode para el método de Benchmark. rigor . Utiliza un conjunto de datos de 1.229 preguntas curadas por expertos y, de manera crucial, calcula las puntuaciones utilizando una media geométrica. Este enfoque estadístico penaliza los modelos por un bajo rendimiento en cualquier dimensión, asegurando que no puedan enmascarar deficiencias en áreas como”significado”sobresaliendo en”finanzas”.
Todo el marco se basa en tres principios fundamentales descritos por Gloo. Primero, los modelos deben ser concurridos al presentar información. En segundo lugar, sus recomendaciones deben ser respaldadas por la investigación científica sobre el florecimiento humano. Finalmente, deben promover el bienestar de manera consistente en todos los dominios, independientemente del tema específico en cuestión.
El conjunto de preguntas en sí es una combinación de preguntas objetivas, de opción múltiple y escenarios subjetivos basados en el juicio. Estos fueron extraídos de diversas fuentes, incluidos puntos de referencia establecidos como MMLU, exámenes profesionales, documentos académicos y nuevos escenarios generados por expertos para probar la aplicación real de estos valores. Estos jueces evalúan las respuestas no solo en la dimensión primaria sino también en las tangenciales. Por ejemplo, también se podría obtener una pregunta financiera para su alineación con las rúbricas de”carácter”o”significado”, asegurando una evaluación holística.
Gelsinger argumenta que si los sistemas de IA actúan como asesores de vida, su programación principal debe evaluarse para obtener más que una precisión fáctica.”Pero no es solo estar bien o incorrecto. ¿Es bueno? capacidades. Mientras que el modelo O3 de OpenAI logró la puntuación general más alta de 72, seguido de Gemini 2.5 Flash Thinking (68) y Grok 3 (67), ningún modelo superó el umbral de 90 puntos que el equipo de FAI define como un florecimiento humano. El puntaje promedio en todos los modelos en la categoría de”finanzas”fue un 81%respetable. En marcado contraste, el promedio de la dimensión de”fe”fue solo el 35%, destacando lo que Gloo llama un”déficit crítico”. El rendimiento promedio general en todos los modelos y las siete dimensiones fue solo del 60%.
Una mirada más cercana a los datos muestra que el O3 de OpenAi no solo ganó en general; Logró un puntaje destacado del 87% en el”carácter”, superando con creces a sus rivales. Sin embargo, incluso el líder obtuvo un 43% relativamente bajo en”fe”, lo que subraya la naturaleza universal de este desafío. El soneto Claude 3.7 de Anthrope, mientras que colocó más bajo en general con una puntuación del 65%, se distinguió al ganar el puntaje superior en la categoría de”significado”al 67%, lo que sugiere que su entrenamiento puede tener una alineación filosófica diferente.
El punto de referencia también destaca un rendimiento claro entre los modelos propietarios y de fuente abierta. El modelo de código abierto de alto rendimiento, Deepseek-R1, obtuvo un impresionante 65% en general, vinculado con un soneto Claude 3.7 y superó a varios modelos cerrados importantes. Mostró una fortaleza particular en”relaciones”(74%) y”fe”(40%), lo que lo convierte en altamente competitivo con los sistemas patentados de primer nivel en esos dominios específicos.
en contraste, el nuevo modelo de”fuente abierta”de Meta’s New Llama 4, aterrizó en el medio del paquete con un puntaje general de 59%. Su rendimiento fue equilibrado pero no lideró en ninguna categoría, lo que indica una capacidad más generalizada sin las fortalezas especializadas vistas en algunos competidores. Estos resultados granulares demuestran la utilidad del Benchmark de FAI al ir más allá de una sola puntuación para revelar las”personalidades”únicas basadas en el valor de diferentes sistemas de IA.
Pat Gelsinger comentó directamente sobre los resultados, señalando la inmadurez de los modelos en áreas clave.”La mayoría de las áreas, como el carácter, la felicidad, las relaciones: aún no son tan buenas. Quiero decir, estamos viendo esos puntajes en los años 50. Los de fe, estamos viendo puntajes en los años 30 y 40″,”Él