Ingeniería de atributos

En este documento, se describe cómo Feature Transform Engine realiza la ingeniería de atributos. Function Transform Engine realiza la selección y la transformación de atributos. Si la selección de atributos está habilitada, Feature Transform Engine crea un conjunto clasificado de atributos importantes. Si están habilitadas las transformaciones de atributos, Feature Transform Engine procesa los atributos para garantizar que la entrada para el entrenamiento y la entrega de modelos sea coherente. Feature Transform Engine se puede usar por sí solo o junto con cualquiera de los flujos de trabajo de entrenamiento tabular. Es compatible con frameworks de TensorFlow y de terceros.

Entradas

Debes proporcionar las siguientes entradas a Feature Transform Engine:

Datos sin procesar (conjunto de datos de BigQuery o CSV)
Configuración de la división de datos.
Configuración de la selección de atributos
Configuración de transformación de atributos.

Salidas

Feature Transform Engine genera los siguientes resultados:

dataset_stats: Estadísticas que describen el conjunto de datos sin procesar. Por ejemplo, dataset_stats proporciona la cantidad de filas en el conjunto de datos.
feature_importance: Puntuación de importancia de los atributos. Este resultado se genera si la selección de atributos está habilitada.
materialized_data, que es la versión transformada de un grupo de división de datos que contiene la división de entrenamiento, la división de evaluación y la división de prueba.
training_schema: Esquema de datos de entrenamiento en la especificación de OpenAPI, que describe los tipos de datos de los datos de entrenamiento.
instance_schema: Esquema de instancia en la especificación de OpenAPI, que describe los tipos de datos de los datos de predicción.
transform_output: Son los metadatos de la transformación. Si usas TensorFlow para la transformación, los metadatos incluyen el grafo de TensorFlow.

Pasos de procesamiento

Feature Transform Engine realiza los siguientes pasos:

Genera divisiones de conjuntos de datos para el entrenamiento, la evaluación y las pruebas.
Genera estadísticas del conjunto de datos de entrada dataset_stats que describan el conjunto de datos sin procesar.
Realiza la selección de atributos.
Procesa la configuración de la transformación con las estadísticas del conjunto de datos y resuelve los parámetros de transformación automáticos en parámetros de transformación manuales.
Transforma atributos sin procesar en atributos de ingeniería. Se realizan diferentes transformaciones para diferentes tipos de atributos.

Selección de los atributos

El propósito principal de la selección de atributos es reducir la cantidad de atributos que se usan en el modelo. Se espera que el conjunto de atributos reducido capte la mayor parte de la información de la etiqueta de una manera más compacta. La selección de atributos te permite reducir el costo del entrenamiento y la entrega de modelos sin afectar de manera significativa la calidad del modelo.

Si se habilita la selección de atributos, Feature Transform Engine asigna una puntuación de importancia en cada atributo. Puedes optar por entregar las puntuaciones de importancia del conjunto completo de atributos o de un subconjunto reducido de los atributos más importantes.

Vertex AI ofrece los siguientes algoritmos de selección de atributos:

Información mutua ajustada (AMI)
Maximización de información mutua condicional (CMIM)
Maximización de información mutua conjunta (JMIM)
Relevancia máxima y redundancia mínima (MRMR)

Ten en cuenta que no existe un algoritmo de selección de atributos que siempre funcione mejor en todos los conjuntos de datos y para todos los propósitos. Si es posible, ejecuta todos los algoritmos y combina los resultados.

Información mutua ajustada (AMI)

AMI es un ajuste de la puntuación de información mutua (MI) para justificar la probabilidad. Esto se debe a que, por lo general, la MI es más alta para dos clústeres con una mayor cantidad de clústeres, sin importar si se comparte más información.

AMI es bueno para detectar la relevancia de los atributos y la etiqueta, pero no distingue la redundancia de atributos. AMI debe considerarse si hay muchos atributos (por ejemplo, más de 2,000) y no mucha redundancia de atributos. Es más rápido que los otros algoritmos descritos aquí, pero podría detectar atributos redundantes.

Maximización de información mutua condicional (CMIM)

CMIM es un algoritmo ávido que elige los atributos de forma iterativa en función de la información mutua condicional de los atributos candidatos con respecto a los atributos seleccionados. En cada iteración, selecciona el atributo que maximiza la información mutua mínima con la etiqueta que aún no se ha captado con los atributos seleccionados.

CMIM es sólida para abordar la redundancia de atributos y funciona bien en casos típicos.

Maximización de información mutua conjunta (JMIM)

JMIM es un algoritmo ávido similar a CMIM. JMIM selecciona el atributo que maximiza la información mutua conjunta del nuevo y los atributos preseleccionados con la etiqueta, mientras que CMIM considera más la redundancia.

JMIM es un algoritmo de selección de atributos de alta calidad.

Relevancia máxima y redundancia mínima (MRMR)

MRMR es un algoritmo ávido que funciona de forma iterativa. Es similar a CMIM. Cada iteración elige el atributo que maximiza la relevancia con respecto a la etiqueta y, al mismo tiempo, minimiza la redundancia en términos de pares con respecto a los atributos seleccionados en las iteraciones anteriores.

MRMR es un algoritmo de selección de atributos de alta calidad.

¿Qué sigue?

Después de realizar la ingeniería de atributos, puedes entrenar un modelo para la clasificación o regresión:

Entrena un modelo con AutoML de extremo a extremo
Entrena un modelo con TabNet.
Entrena un modelo con Wide & Deep.