La startup de IA Perplexity lanzó un sistema de código abierto el 4 de noviembre que permite que los modelos de IA más grandes del mundo se ejecuten eficientemente en la infraestructura de la nube de Amazon por primera vez.

Detallado en un nuevo artículo de investigación, el sistema proporciona una alternativa poderosa y portátil a las soluciones que requieren hardware de red especializado de NVIDIA.

Un avance técnico, ofrece un nuevo camino para implementar modelos masivos como Kimi K2 en AWS.

La medida se produce mientras la firma de Silicon Valley navega por crecientes batallas legales con plataformas importantes, incluidas Reddit y la propia Amazon, por sus controvertidas prácticas de recopilación de datos y agentes de inteligencia artificial, creando un marcado contraste entre sus contribuciones de código abierto y sus métodos comerciales.

Under the Hood: A Portable’TransferEngine’para unificar las redes de IA

Perplexity AI ha abierto un nuevo conjunto de núcleos de comunicación de mezcla de expertos (MoE) de alto rendimiento, lo que hace que el código esté disponible en un repositorio de GitHub llamado ‘pplx-garden’.

El lanzamiento va acompañado de un artículo de investigación detallado, ahora atribuido a los empleados de Perplexity, Nandor Licker, Kevin Hu, Vladimir Zaytsev y Lequn Chen, que describe la arquitectura del sistema.

Los modelos MoE requieren escaso, dinámico, comunicación punto a punto para enrutar datos entre diferentes submodelos”expertos”, un patrón que las bibliotecas de comunicación colectiva tradicionales manejan mal.

En el centro de la innovación se encuentra una biblioteca portátil llamada’TransferEngine’, creada para gestionar transferencias de datos de alto rendimiento y baja latencia utilizando Acceso remoto directo a memoria (RDMA).

En lugar de depender de la tecnología GPUDirect Async de NVIDIA, que permite que una GPU se comunique directamente con una tarjeta de red pero crea hardware. lock-in, Perplexity optó por un diseño de proxy de host más flexible.

En este modelo, un subproceso de CPU dedicado gestiona las operaciones de red en nombre de la GPU. Si bien esto introduce una pequeña sobrecarga, hace que todo el sistema sea independiente del hardware.

Al abstraer las diferencias entre el hardware de la competencia, TransferEngine de Perplexity permite a los desarrolladores escribir código portátil y de alto rendimiento. Su idea clave fue crear una abstracción que no dependa de la estricta entrega de datos en orden garantizada por las tarjetas ConnectX de NVIDIA.

Su compatibilidad ahora se extiende a la entrega inherentemente desordenada del Elastic Fabric Adapter (EFA) de AWS, unificando las dos redes principales dominantes bajo una sola interfaz.

Los resultados de la compañía son significativos, ya que los puntos de referencia muestran que los nuevos núcleos logran un rendimiento de última generación.

En un Clúster de 64 GPU con hardware NVIDIA ConnectX-7, el sistema registró una latencia de decodificación combinada de solo 692 microsegundos, superando al anterior líder de la industria, DeepEP.

Un juego estratégico para la independencia de la nube

El lanzamiento de esta tecnología aborda directamente un cuello de botella importante en la implementación masiva de IA. modelos.

Para los clientes de la nube, la capacidad de ejecutar estos modelos sin estar limitado a un solo proveedor de hardware representa un paso significativo hacia la reducción de costos y el aumento de la flexibilidad.

Los modelos de vanguardia como el modelo Kimi K2 de un billón de parámetros de Moonshot AI son demasiado grandes para la inferencia de un solo nodo, lo que requiere configuraciones complejas de múltiples nodos que son altamente sensibles al rendimiento de la red.

Hasta ahora, lograr un rendimiento MoE de primer nivel ha requerido en gran medida una pila completa de NVIDIA. combinando GPU con sus tarjetas de red ConnectX.

El trabajo de Perplexity hace que EFA, propiedad de Amazon, sea por primera vez una alternativa viable y de alto rendimiento.

Los intentos anteriores de utilizar EFA para este tipo de carga de trabajo con bibliotecas genéricas como NVSHMEM fueron demasiado lentos para ser prácticos para la inferencia de producción.

El avance podría remodelar la economía de la implementación de IA a gran escala. Brinda a las empresas una nueva y poderosa opción para ejecutar modelos de código abierto de vanguardia en AWS sin estar vinculadas a un ecosistema de hardware específico.

Esta medida posiciona a Perplexity no solo como una empresa de productos orientados al consumidor, sino como un contribuyente clave a la infraestructura fundamental de la industria de la IA, lo que podría debilitar el control férreo de NVIDIA sobre el mercado de hardware de IA de alto rendimiento.

Una identidad dual: ¿Pionero del código abierto o raspador de datos?

Si bien la compañía defiende sus contribuciones de código abierto, continúa enfrentando una avalancha de desafíos legales por parte de los propietarios de contenido.

El momento de este lanzamiento técnico es particularmente notable, ya que llegó el mismo día que Winbuzzer informó que Amazon había emitido una carta de cese y desistimiento exigiendo a Perplexity que impidiera que su agente Comet AI realizara compras en su sitio web.

En un comunicado, un portavoz de Amazon dijo: “Aplicaciones de terceros como Agentes de Perplexity Comet tiene las mismas obligaciones y hemos solicitado repetidamente que Perplexity elimine a Amazon de la experiencia Comet”.

Esta acción sigue a una demanda feroz presentada por Reddit a finales de octubre, que acusó a Perplexity de un plan de”escala industrial”para eliminar ilegalmente su contenido de los resultados de búsqueda de Google.

El jefe legal de Reddit, Ben Lee, declaró:”Perplexity es un cliente dispuesto de al menos uno de estos raspadores, y elige comprar datos robados en lugar de celebrar un acuerdo legal con el propio Reddit”.

Perplexity ha negado sistemáticamente haber actuado mal en sus batallas legales, y su jefe de comunicación, Jesse Dwyer, afirmó:”Nuestro enfoque sigue siendo responsable y basado en principios, ya que proporcionamos respuestas objetivas con IA precisa, y no toleraremos amenazas contra la apertura y el interés público”.

Un patrón de conflicto como este crea una imagen pública compleja para la empresa. Al mismo tiempo, está creando herramientas que empoderan a la comunidad de código abierto y, al mismo tiempo, se le acusa de explotar los datos de la web abierta sin permiso.

La empresa parece estar siguiendo una estrategia dual: contribuir a los bienes comunes con una mano y tomar de ellos con la otra.

Para contrarrestar esta narrativa, Perplexity recientemente firmó un acuerdo de licencia de varios años con Getty Images, comprometiéndose a la atribución adecuada del contenido visual.

Tal acuerdo sugiere una voluntad de participar en asociaciones con licencia, pero contrasta marcadamente con las relaciones más conflictivas de la empresa en otros lugares.

Una identidad dual, en parte defensora del código abierto y en parte combatiente legal, define el papel de alto riesgo de Perplexity.

Categories: IT Info