Implementa modelos de IA generativa

En esta página, se proporciona orientación para implementar un modelo de IA generativo en un extremo para la predicción en línea.

Revisa Model Garden

Si el modelo está en Model Garden, puedes implementarlo si haces clic en Implementar (disponible para algunos modelos) o en Abrir notebook.

Ir a Model Garden

De lo contrario, puedes realizar una de las siguientes acciones:

Si tu modelo es similar a uno en Model Garden, es posible que puedas volver a usar directamente uno de los contenedores de Model Garden.
Compila tu propio contenedor personalizado que cumpla con los requisitos de los contenedores personalizados para la predicción antes de importa tu modelo en Vertex AI Model Registry. Después de importarse, se convierte en un recurso model que puedes implementar en un extremo.

Puedes usar los Dockerfiles y las secuencias de comandos que usamos para compilar nuestros contenedores de Model Garden como referencia o punto de partida para compilar tus propios contenedores personalizados.

Configuración para los contenedores personalizados

En esta sección, se describen los campos de containerSpec del modelo que es posible que debas especificar cuando importes modelos de IA generativa.

sharedMemorySizeMb

Algunos modelos de IA generativa requieren más memoria compartida. La memoria compartida es un mecanismo de comunicación entre procesos (IPC) que permite que varios procesos accedan a un bloque común de memoria y lo manipulen. El tamaño de memoria compartida predeterminado es de 64 MB.

Algunos servidores de modelos, como vLLM o Nvidia Triton, usan la memoria compartida para almacenar en caché datos internos durante las inferencias del modelo. Sin suficientes modelos compartidos, algunos servidores de modelos no pueden entregar predicciones para modelos generativos. La cantidad de memoria compartida necesaria, si la hay, es un detalle de implementación de tu contenedor y modelo. Consulta la documentación de tu servidor de modelos para obtener lineamientos.

Además, debido a que la memoria compartida se puede usar para la comunicación entre GPU, el uso de más memoria compartida puede mejorar el rendimiento de los aceleradores sin capacidades de NVLink (por ejemplo, L4), si el contenedor del modelo requiere la comunicación entre GPU.

Si deseas obtener información sobre cómo especificar un valor personalizado para la memoria compartida, consulta Campos de API relacionados con contenedores.

startupProbe

Un sondeo de inicio es un sondeo opcional que se usa para detectar cuándo se inició el contenedor. Este sondeo se usa para retrasar el sondeo de estado y las verificaciones en funcionamiento hasta que el contenedor se inicie, lo que ayuda a evitar que los contenedores de inicio lento se cierren de forma prematura.

Para obtener más información, consulta Verificaciones de estado.

healthProbe

El sondeo de estado verifica si un contenedor está listo para aceptar tráfico. Si no se proporciona un sondeo de estado, Vertex AI usará las verificaciones de estado predeterminadas que emiten una solicitud HTTP al puerto del contenedor y busca una respuesta 200 OK del servidor del modelo.

Si el servidor de tu modelo responde con 200 OK antes de que el modelo se cargue por completo, lo cual es posible, en especial para modelos grandes, la verificación de estado se realizará de manera correcta y prematura y Vertex AI enrutará el tráfico al contenedor antes de que esté listo.

En estos casos, especifica un sondeo de estado personalizado que se realice de forma correcta solo después de que el modelo esté completamente cargado y listo para aceptar tráfico.

Para obtener más información, consulta Verificaciones de estado.