Skip to content
Course Content
Tema 3 – ML Modelos
Tema 4 – ML Evaluacion Modelos
Tema 5 – ML Model Deployment
Proyecto Final
Ingeniero Machine Learning
Acerca de las clases

Un proyecto de aprendizaje automático se puede dividir en varias partes. Estas partes corresponden a los diferentes pasos del proceso de aprendizaje automático.

 

Adquisicion de Datos

La adquisición de datos es el proceso de recopilar datos relevantes y confiables en variables. Los datos son relevantes cuando existe una relación clara con la variable dependiente Los datos son confiables cuando es muy probable que la información sea correcta (sin errores)

Preparacion de Datos

La preparación de datos es el proceso de limpieza y transformación de datos sin procesar antes de procesamiento y análisis. Tiene varios pasos, y normalmente se ejecutan en el siguiente orden:

  1. Eliminación de valores atípicos
  2. Relleno de valores faltantes
  3. Normalización de datos
  4. Manejo de variables categóricas

Eliminación de valores atípicos Un valor atípico es un punto de datos que difiere significativamente de otras observaciones que producen efectos indeseables como:

La detección de valores atípicos puede resultar difícil. El enfoque más simple es utilizar los cuantiles. Para Por ejemplo, puede asumir que los valores por debajo y por encima del percentil 99 son valores atípicos. Cuando un valor se considera un valor atípico, las opciones comunes son: Retire la muestra completa. Limite el valor atípico a un valor máximo / mínimo.

Valores Faltantes

La imputación es el proceso de reemplazar los datos faltantes con valores sustituidos. Existen múltiples formas de lidiar con este problema. Los más sencillos son:

Eliminación de la muestra completa. Esto solo es válido cuando faltan pocos valores Imputación simple. Para reemplazar los valores perdidos con la moda / media / mediana / max / min de la distribución variable Regresión lineal simple. Para reemplazar los valores perdidos creando un modelo lineal con otra variable sin valores perdidos. Esto solo es válido si encontramos dos variables correlacionadas.

Normalizacion de Datos

Los dominios o rangos variables son importantes. Tienen un impacto directo en la mayoría de las máquinas. modelos de aprendizaje. En general, los dominios grandes predominan sobre los pequeños. Para evitar esto efecto indeseable, las variables deben ajustarse a una escala común: Normalización. Establecer valores en el intervalo [0, 1]: Formula

Z-score. Move values to a normal distribution with N(µ, σ2 ) = N(0, 1)

Archivos de ejercicios
No se encontraron adjuntos
No se encontraron adjuntos
Cookie Consent with Real Cookie Banner