Analizando Salarios de la EPH con R

 In Blogs

Este post fue publicado originalmente en Data Science Heroes por Pablo Seibelt

Introducci贸n

El INDEC libera cada trimestre la base de datos de la Encuesta Permanente de Hogares, o EPH, la misma es una encuesta que se hace en hogares de todo el pa铆s y nos permite analizar estad铆sticamente a la poblaci贸n de nuestro pais. Desafortunadamente las encuestas realizadas entre 2007 y 2015 tienen muchos problemas metodologicos segun nos indican desde la pagina del INDEC, pero tenemos datos detallados desde 2016-2do trimestre en adelante.

Descargue los datos del tercer trimestre de 2018 (Es decir, Jul-Sep 2018) y arme un script en R para procesar los datos, investigando la fuente de datos vi que habia algunos datos que vienen de PDFs, la base de datos requiere bastante “masajeo” para analizarla, cree en base a los PDFs archivos CSV con los codigos de ocupaciones, y los c贸digos de actividad del mercosur. Ambos archivos csv est谩n disponibles en el repositorio de este proyecto: https://github.com/sicarul/eph-salarios.

Algo importante a tener en cuenta es que el ritmo de la inflaci贸n desde que estos datos fueron capturados hace necesario leer los datos en forma relativa y no absoluta.

Aclaraciones de metodolog铆a

El an谩lisis que hice se enfoca en el salario de la ocupaci贸n principal de las personas encuestadas, sin considerar el hogar al que forman parte, es decir, solo mire la base individuos. Seguro se pueden sacar otras cosas interesantes cruzando ambas tablas.

Para evitar analizar de la misma manera a alguien que trabaja 10 horas con alguien que trabaja 40 horas, voy a analizar el salario por hora, estimado en base a el salario mensual reportado y la cantidad de horas que trabajaron en la 煤ltima semana, multiplicado por la cantidad de semanas promedio del a帽o (30 / 7 =~ 4.28)

La edad

Analizando Salarios de la EPH con R

Usando la funci贸n equal_freq de funModeling, separe a los individuos de por lo menos 18 a帽os de edad, en 4 grupos de igual cantidad de miembros, de todas las personas con una ocupaci贸n principal. Podemos ver c贸mo a medida que pasa el tiempo, los salarios promedio por hora van aumentando, lo cual entiendo tiene que ver con los a帽os de experiencia permitiendo acceder a cargos de mayor responsabilidad y paga.

En todos los casos en que vean estos gr谩ficos de cajas (box-plot) utilice la metodolog铆a de los percentiles 2 y 98 para los “bigotes”. Esto significa que la l铆nea negra dentro de la caja indica la mediana (el percentil 50), mientras que la caja en s铆 delimita los cuartiles 2 y 3 (o percentiles 25 y 75), y los bigotes muestran como es el 2% inferior, y el 2% superior de la distribuci贸n. Los datos han sido ponderados seg煤n el valor PONDIIO incluido en la encuesta.

Analizando Salarios de la EPH con R

Si queremos analizar c贸mo impacta el nivel de formalidad en los salarios, podemos ver algo muy interesante en los rangos de edad de 39 a帽os en adelante; aquellos que entregan factura tienen un “techo” muchisimo mas alto que el resto, sin embargo su ingreso promedio es menor al resto.

Tambi茅n podemos ver que en todos los rangos etarios los mejores salarios promedio son de aquellos que reciben un recibo legal, es decir aquellos que est谩n en blanco.

La edad y la ocupaci贸n

Analizando Salarios de la EPH con R

Se pueden hacer estos gr谩ficos con todas las ocupaciones, pero en este post decidi solo hacerlo para cuatro ocupaciones que elegi arbitrariamente, bajando el c贸digo pueden ejecutarlo para todas las otras. Es llamativo como la edad modifica el salario de formas muy distintas seg煤n la ocupaci贸n.

Poniendo GPS al salario

Los mayores salarios del pa铆s se encuentran en el 谩rea de Ushuaia / Rio Grande, probablemente (Conjetura mia) por los beneficios impositivos que gozan los habitantes de esa zona. Por el otro lado, los peores salarios se encuentran en Santiago del estero.

Inactividad

Dentro de la EPH, hay una categor铆a llamada “Inactividad”, separado de los desempleados, puede ser interesante entender c贸mo se componen y comportan quienes est谩n clasificados en cada uno de los tipos de inactivos.

Analizando Salarios de la EPH con R

Podemos ver dentro de las categor铆as de inactividad, cuantos de ellos buscaron trabajo en los 煤ltimos 12 meses, seria util saber que significa el caso “Otros”, y no entiendo porque el bajo % de pensionados buscando trabajo (Obviamente no hablo de las ultimas dos categor铆as de edad que deben ser en su mayor铆a o totalidad jubilados).

Analizando Salarios de la EPH con R

Analizando los mismos datos por ubicaci贸n, hay algo llamativo acerca del porcentaje de gente buscando trabajo de los que est谩n en inactividad, y es que el porcentaje es muy bajo tanto en Ushuaia como en Santiago del estero, los que ya vimos que son las areas de mayor y menor remuneraci贸n promedio del pa铆s.

En la ciudad el % tambi茅n es bajo, sin embargo es m谩s alto al mirar los partidos del gran buenos aires. Esto habr铆a igual que tomarlo con pinzas ya que las muestras al desglosar tanto los datos son bastante chicas.

Cierre

Como mencione al principio, el c贸digo utilizado en R para analizar la EPH est谩n en este proyecto de github: https://github.com/sicarul/eph-salarios.

Hay muchas cosas para analizar en este dataset, y ademas se puede ver la evolucion a traves del tiempo, espero que este c贸digo les sirva a otros que quieran analizar desde otras perspectivas al EPH. El c贸digo es de libre uso sin necesidad de citar fuentes.

Es la primera vez que analizo un dataset de encuestas del INDEC, as铆 que cualquier error que vean en mi an谩lisis les agradezco que me lo comenten para corregirlo, muchas gracias por leer!

Recommended Posts

Start typing and press Enter to search