Inicio » Tendencias » Big Data » Creando un entorno de trabajo para Data Science: Virtual Box, Python y Jupyter Notebook

Creando un entorno de trabajo para Data Science: Virtual Box, Python y Jupyter Notebook

Hoy en día nadie duda del tremendo avance del Big Data, el Data Science y el Data Engineering. Sin embargo, una de las tareas más difíciles cuando nos sumergimos en estos mundos es saber cómo preparar nuestro entorno de trabajo para empezar a procesar datos, en este post, te contaremos los puntos clave para crear nuestro primer entorno de trabajo para Data Science basado en Virtual Box, Python y Jupyter Notebook.

 

python lenguaje de programacion big data

¿Qué es Python?

Parece una asignatura más que obligatoria para casi todos los entusiastas de los datos aprender Python, de hecho, gracias al boom imparable del Big Data y la Inteligencia Artificial, Python lleva varios años siendo uno de los lenguajes de programación que las empresas más punteras en tecnología (SpaceX, AirBNB, Epic Games, entre otros) recomiendan aprender. Dicho en otras palabras, Python hoy en día es considerado por muchos el lenguaje de programación mas popular del mundo.

Los paquetes de Python, la clave del éxito

Para el todavía no haya oído hablar de Python, en pocas palabras, consiste en un lenguaje interpretado de alto nivel, creado en 1991, totalmente Open Source, desarrollado y mantenido por la gran comunidad de programadores Python, así como la Python Software Fundation.

Con el auge de la programación científica y de la ciencia de datos paulatinamente fue alcanzando popularidad especialmente con la versión 2.7 (todavía presente en muchas compañías), a día de hoy la última versión estable es la 3.8.0. Python principalmente funciona a través de paquetes que incorporan módulos con funciones ya predefinidas que facilitan la vida a los desarrolladores software, algunos de los paquetes más populares son:

LEE  Perfiles más demandados en Big Data

Scipy

Paquete que incorpora módulos destinados a trabajar con funciones de álgebra lineal, interpolación lineal u optimización entre otros.

Numpy

Es un paquete dedicado principalmente a procesar vectores multidimensionales (arrays)

Pandas

Paquete dedicado a procesar estructuras de datos similares a matrices (dataframes, puedes encontrar más información sobre dataframes en nuestro post: Dataframe, Dataset y RDD en R y Spark para realizar analítica de datos sobre los mismos.

MatplotLib

Paquete dedicado a realizar visualización de datos.

Scikit-learn

Paquete dedicado a la creación de modelos y aprendizaje automático (Machine Learning).

jupyter notebook programacion

De qué trata Jupyter Notebook

Al igual que Python posee miles de paquetes para procesar las labores de procesamiento de datos de cualquier Data Scientist. Podemos programar código Python en numerosos entornos de programación (IDEs), algunos de ellos son:

  • IDLE
  • Spyder
  • PyCharm
  • PyDev
  • VisualStudio
  • Jupyter Notebook
  • etc…

Salvo Jupyter Notebook, el resto de los entornos de programación están principalmente destinados a la elaboración y ejecución de scripts.

Por su parte, Jupyter Notebook es mucho más versátil para cualquier desarrollador que esté comenzando su andadura en Python o que quiera mostrar de una forma interactiva sus trabajos acompañados de anotaciones.

Actualmente Jupyter Notebook es el mejor entorno de programación para la enseñanza puesto que además de poder incluir código Python, nos permite incluir texto y anotaciones en Markdown, incluir url, vídeos, tablas, anotaciones en LaTeX y sobre todo, nos permite ejecutar el código mediante celdas, pudiendo centrarnos y hacer énfasis en un fragmento concreto del código fuente, sin tener que ejecutar un script completo.

Jupyter Notebook se caracteriza por permitirnos escribir código y las funcionalidades anteriormente mencionadas a través del navegador web, ya que el entorno de programación se lanza directamente desde el navegador, dicho en otras palabras, vamos a estar programando Python desde Google Chrome, Firefox, Opera o el navegador que tengamos instalado en nuestro equipo, otra de las razones por las que es un buen aliado para la enseñanza y aprender a programar en Python, es que en lugar de scripts, en Jupyter Notebook se trabaja con los llamados Notebooks, es decir, cuadernos.

LEE  Qlik: ¿qué es y cómo funciona esta herramienta de Business Intelligence?

Por lo tanto, como si de una lección se tratara podemos ir guardando nuestros cuadernos que incluirán el código a través de las mencionadas celdas, a medida que vamos aprendiendo todas las ventajas y oportunidades que nos ofrece este lenguaje.

Ahora bien, como ya hemos mencionado, Python es un lenguaje que nos va a obligar a utilizar varios paquetes en nuestro día a día, en algunas ocasiones estos paquetes necesitarán ciertos procesos de instalación y en otras ocasiones nos vamos a enfrentar a los típicos problemas de dependencias entre paquetes o problemas de versión, este tipo de problemas si no tenemos la suficiente experiencia pueden llevar a que en algunas ocasiones, paquetes importantes dejen de funcionar y tengamos que realizar la desinstalación/instalación de todo nuestro entorno de desarrollo.

Para evitar este tipo de problema es aconsejable virtualizar nuestro el entorno de desarrollo.

virtual box que es y para que sirve

¿Qué es y para qué sirve Virtual Box?

Entre los diferentes proveedores de virtualización software que se encuentran en el mercado. Oracle VirtualBox parecer ser una de las opciones más aconsejables especialmente al ser una herramienta gratuita.

Su funcionamiento es tan sencillo como descargarnos una imagen de un sistema operativo (lo más normal es virtualizar sistemas basados en Linux o Windows) y ejecutarla a través de VirtualBox simulando de esta manera un ordenador (sistema invitado) dentro de nuestro propio equipo (sistema anfitrión).

No solamente nos permite simular un sistema operativo, sino que además nos permite configurar el mismo mediante memoria RAM de la que dispondrá y los GB de almacenamiento interno que podremos consumir. Por lo tanto, podemos virtualizar la misma imagen (o distintas) de un sistema operativo tantas veces como nos permitan los recursos de nuestro equipo.

LEE  Conceptos que debes manejar si quieres trabajar con Big Data: modelos estadísticos para ordenadores

Una vez que ya estamos dentro de nuestro sistema virtualizado, simplemente tenemos que descargar una distribución de Anaconda que tenga soporte a Python (también podemos encontrarnos soporte a R) y Jupyter Notebook. Finalizado el proceso de instalación y configuración, el resto será lanzar nuestros notebooks en el navegador del sistema virtualizado y ya podremos comenzar nuestra andadura en el mundo de Data Science a través de  Python.

Juan Manuel Moreno, tutor del Master en Big Data en IMF Business School.

Enlace de Interés: 

Formación Relacionada

Las dos pestañas siguientes cambian el contenido a continuación.
Equipo de profesionales formado esencialmente por profesores y colaboradores con amplia experiencia en las distintas áreas de negocio del mundo empresarial y del mundo académico. IMF Smart Education ofrece una exclusiva oferta de postgrados en tecnología en colaboración con empresa como Deloitte, Indra o EY (masters en Big Data, Ciberseguridad, Sistemas, Deep Learning, IoT) y un máster que permite acceder a la certificación PMP/PMI. Para ello IMF cuenta con acuerdos con universidades como Nebrija, la Universidad de Alcalá y la Universidad Católica de Ávila así como con un selecto grupo de universidades de Latinoamérica.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¡Noticias, eventos y formación!

Suscríbete ahora y recibe los mejores contenidos sobre Negocios, Prevención, Marketing, Energías Renovables, Tecnología, Logística y Recursos Humanos.

Acepto recibir comunicaciones comerciales por parte del grupo IMF
He leído y acepto las condiciones


Entorno de trabajo Data Science: Virtual Box, Python y Jupyter Notebook

En este post, te contaremos los puntos clave para crear nuestro primer entorno de trabajo para Data Science basado en Virtual Box, Python y Jupyter Notebook.