El poder de SQL para los futuros científicos de datos

Historia exclusiva para miembros

Meagan Voulo

Seguir

Inversor impulsado por datos

Mi transición al mundo de la ciencia de datos no fue tradicional. Fui a la escuela de psicología, comencé a trabajar en marketing, escribí un poco y finalmente me inscribí en un BootCamp de ciencia de datos cuando tenía 27 años. Dicho esto, traté mi BootCamp de ciencia de datos en Springboard como un trabajo de tiempo completo.

Pasé al menos 40 horas a la semana completando mis cursos e investigando más por mi cuenta para comprender mejor los conceptos. Pero, incluso después de graduarme de ese programa, no me sentía completamente preparado para conseguir un trabajo como científico de datos. En cambio, busqué puestos de analista de datos y analista de marketing. Al conseguir mi primer puesto de analista de datos, aprendí que, aunque era bastante competente con Python, el análisis exploratorio de datos y el modelado, no tenía una buena comprensión de la consulta de datos.

Para abordar esta deficiencia, busqué recursos para practicar SQL. Mirando hacia atrás, esto es probablemente lo mejor que pude haber hecho después de completar mi campo de entrenamiento intensivo en ciencia de datos con Python. Para aquellos que están tratando de abrirse camino como científicos de datos, descubrí que hay una muy buena razón para aprender SQL: con él son indispensables...

Podrías pensar que estoy exagerando, pero es la verdad. En el mercado laboral actual, nada es seguro. Los despidos tecnológicos están ocurriendo de izquierda a derecha sin ton ni son. Como alguien que se pone ansioso por este tipo de cosas, me propuse una meta por la que trabajar y decidí que sería mi boleto hacia la seguridad laboral... ser el mejor analista de ciencia de datos de mi empresa.

Para hacer esto, determiné que no solo necesitaba conocer Python sino también dominar SQL. Aquí está mi razonamiento:

Si puedo obtener mis propios datos, no necesito depender de un analista o un ingeniero para obtener la información que necesito para mis modelos de aprendizaje coincidentes.

Lo más común es que la gente conozca la regla 80/20 de la ciencia de datos, que establece que el 80% de la ciencia de datos prepara los datos y el 20% los analiza y genera informes. Por supuesto, parte de esa limpieza de datos se puede realizar usando Python, pero al tener un conocimiento firme de SQL, me aseguré de poder administrar los datos, verificar si hay inconsistencias y errores, y limpiarlos antes de guardarlos en mi cuaderno.

Blog