Inicio » Machine Learning » ¿Qué puede predecirse con Machine Learning o Aprendizaje Automático?

¿Qué puede predecirse con Machine Learning o Aprendizaje Automático?

¿Si te dijeran que el pico de un pingüino mide 4 centímetros, sabrías calcular la masa de ese pingüino sin utilizar una báscula? ¿Y si te dijeran que su aleta mide 20 centímetros? Aunque a priori parece un cálculo imposible, un buen predictor de Machine Learning puede aproximarse mucho a la respuesta. Y esta predicción mejora, pudiendo alcanzar la perfección, a medida que le proporcionamos más variables como el género, la especie, la procedencia, etc..

Como es de esperar, una predicción absolutamente perfecta, es difícil de conseguir. Pero más adelante veremos, cómo un algoritmo relativamente sencillo, puede devolver unos resultados sorprendentes sin necesidad de contar con unos datos óptimos que procesar gracias a la Inteligencia Artificial y Big Data.

¿Cuándo podemos aplicar un algoritmo de Machine Learning?

La aplicación de técnicas de Machine Learning, las cuales, se encuentra en constante crecimiento, tienen un gran abanico de usos en múltiples sectores.

La potencia de estas metodologías depende entre otros factores de la complejidad del algoritmo implementado y como se adapta éste a unos datos concretos. Así como de la calidad de los datos disponibles para el análisis, que podrán presentar un grado de utilidad variable en función de su estado en bruto y de las técnicas de “limpieza” de datos que empleemos.

Para mostrar la gran variedad de aplicaciones que presenta el aprendizaje automático, podemos observar el siguiente ejemplo de implementación de un algoritmo predictivo relativamente sencillo. Se trata del “KNN neighbours”, para el cálculo de la masa de pingüinos, a partir de variables como la longitud y profundidad del pico, la longitud de las aletas, el género, la especie y la isla de procedencia.

LEE  La mentira de la inteligencia artificial: así la ‘usan’ el 40% de las startups para conseguir más dinero

Cabe destacar, que las especies de pingüino que analizaremos, son todas de características similares, que se corresponden con pingüinos de pequeño tamaño. ¿Nos ayudará por tanto conocer la especie del pingüino para predecir su masa? La respuesta, si lo estás pensando, es que probablemente no. Ya que si las especies comparten características, y la masa es una de ellas, saber su especie no nos permitirá predecir si pesará más o menos.

Si por el contrario, hubiéramos obtenido datos de una especie de pingüinos grande y otra de pingüinos pequeños, que de media tienen una diferencia de peso de 20kg, el predictor si podría inferir una masa mayor o menor, al conocer si la especie del pingüino es grande o pequeña.

Aprendizaje automático con Python

Para realizar este análisis, se ha empleado el lenguaje de programación Python con varias librerías para el análisis y visualización. Como “Pandas”, “Numpy”, “Matplotlib”, “Seaborn” y “Plotnine”. Y a continuación, “Scikit-Learn”, para la implementación de técnicas de Machine Learning. Si te apasiona la ciencia de datos y te gustaría manejar las herramientas nombradas y muchas otras también relevantes para el futuro, te recomiendo que eches un vistazo a Master Data Science & Business Analytics IMF.

Proceso empleado con Machine Learning

Aunque el análisis completo consta de 15 páginas, la mayoría dedicadas a visualizaciones de datos, podemos ver a continuación un resumen del proceso empleado:

Machine Learning

1) Se comenzó por la obtención de datos generales sobre el conjunto de datos que incluyeron un resumen estadístico del conjunto:

datos generales

2) Más tarde se utilizaron gráficos para mostrar indicios iniciales sobre la distribución de las variables. Como en este caso, la distribución de la masa de los pingüinos de la muestra (en gramos):

LEE  Utilidades de VirtualBox para administrar máquinas virtuales
distribución de variables

3) Se estudió el nivel de correlación entre las variables disponibles en el que se puede observar que la longitud de pico y aleta presentan una fuerte correlación negativa que si analizáramos en detalle, sería cercana a -0,65:

correlación entre las variables

4) Se declaró la variable masa como variable objetivo y se visualizó su correlación con las variables explicativas.

variables explicativas

En este apartado se observó una correlación muy baja de la masa con la especie y la isla de procedencia, por lo que se excluyeron esas variables del análisis.

5) Se dividió el conjunto de datos en grupo de entrenamiento y grupo de prueba. Además se aplicó el algoritmo KNN-Neighbors. Como este algoritmo depende del número de “vecinos K”, se procedió a analizar el valor óptimo “K” que maximiza la precisión del predictor.

El método del codo mostró indicios del valor óptimo en torno a k=10:

algoritmo KNN-Neighbors

Como comprobación, se ejecutó un bucle que calculaba la precisión del modelo para distintos  “valores K” (1-50) y almacenaba en un diccionario el valor de K y el nivel de precisión asociado al mismo.

modelo "valores k"

6) El resultado fue la obtención de un predictor para la masa de pingüinos con más de un 85% de precisión al aplicar K=10.

Conclusión

De esta forma, podemos observar, que es posible conocer en profundidad algo tan específico como la masa de un pingüino. Y como resultado obtener un predictor efectivo de esta variable, siempre que contemos previamente con unos datos adecuados y sin necesidad de ir con una báscula a Torgersen Island.

¿Qué género tendrá el pingüino en función de su masa, su longitud de pico, su longitud de aleta…? Del mismo modo que hemos podido predecir la masa, podríamos haber intentado predecir otra característica, y a su vez, este proceso se puede extrapolar a otros casos en los que haya una pregunta que resolver y un conjunto de datos disponible para este fin.

LEE  Uso de datos abiertos en machine learning

Por tanto, podemos imaginar el gran ámbito de aplicaciones que tienen éstas técnicas, en cualquier sector, en un mundo que genera cada día un mayor volumen de datos, permitiendo hacer predicciones cada vez más exactas.

Víctor Galán Fernández, alumno del Master en Data Science y Business Analytics  en IMF Business School.

Formación Relacionada

Las dos pestañas siguientes cambian el contenido a continuación.
Equipo de profesionales formado esencialmente por profesores y colaboradores con amplia experiencia en las distintas áreas de negocio del mundo empresarial y del mundo académico. IMF Smart Education ofrece una exclusiva oferta de postgrados en tecnología en colaboración con empresa como Deloitte, Indra o EY (masters en Big Data, Ciberseguridad, Sistemas, Deep Learning, IoT) y un máster que permite acceder a la certificación PMP/PMI. Para ello IMF cuenta con acuerdos con universidades como Nebrija, la Universidad de Alcalá y la Universidad Católica de Ávila así como con un selecto grupo de universidades de Latinoamérica.

Una respuesta

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¡Noticias, eventos y formación!

Suscríbete ahora y recibe los mejores contenidos sobre Negocios, Prevención, Marketing, Energías Renovables, Tecnología, Logística y Recursos Humanos.

Acepto recibir comunicaciones comerciales por parte del grupo IMF
He leído y acepto las condiciones


¿Qué puede predecirse con Machine Learning o Aprendizaje Automático?

El aprendizaje automático o Machine Learning utiliza algoritmos programados que reciben y analizan datos. Descúbrelo ya en este post.