Estadística descriptiva: del arte de explorar y otras cuestiones Parte III

En los últimos 2 posts hemos hablado sobre los tipos de variables (cuantitativas vs cualitativas) y los niveles de medición (nominal, ordinal, de intervalo y de ratio), además les dejamos un ejercicio práctico. Hoy les vamos a presentar la solución y empezaremos hablar de las medidas descriptivas más utilizadas para las variables cualitativas.

Nombre de la variableTipo de variableNivel de medición
Nombre del proveedorCualitativaNominal
Razón social de la empresaCualitativaNominal
NIT de la empresaCualitativaNominal
Fecha en que inició la relación comercialCuantitativaDe intervalo
Número de teléfono móvilCualitativaNominal
Dirección de la sede principalCualitativaNominal
Medio de pago aceptado por el proveedorCualitativaNominal
Estado del proveedorCualitativaNominal
Número de transacciones de compra por proveedorCuantitativaRatio
Valor total de la compra (pesos colombianos)CuantitativaRatio
Valor de la compra pagado (pesos colombianos)CuantitativaRatio
Valor de la compra por pagar (pesos colombianos)CuantitativaRatio
Número de la factura de compraCualitativaOrdinal
Porcentaje de descuentoCuantitativaRatio
Valor del IVA (pesos colombianos)CuantitativaRatio
Calificación del servicio prestado por el proveedorCualitativaOrdinal

Medidas descriptivas para variables cualitativas

Para contarles un poco el tipo de tablas y gráficos que utilizamos con variables cualitativas me voy a apoyar en la base de datos que tiene información de clientes que tienen tarjetas de crédito. Estos datos se utilizaron en Yeh, I. C., & Lien, C. H. (2009). The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications, 36(2), 2473-2480. Este conjunto de datos tiene 30.000 observaciones y 25 variables:

  1. Valor del crédito (dólares): el valor dado en crédito, incluye el crédito individual y el dado a la famila
  2. Género: (1 = hombre; 2 = mujer).
  3. Nivel educativo (1 = primaria; 2 = bachillerato; 3 = universidad; 4 = ninguno).
  4. Estado civil: (1 = casado; 2 = soltero; 3 = otro).
  5. Edad: años.
  6. Variable sexta a la onceva corresponde al estado del pago de la factura, X6 corresponde al estado de la factura en septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X11.
  7. entre abril de 2005 y septiembre de 2005. 1. La escala de medición para el estado de devolución es: -1 = pago a tiempo; 1 = retraso de pago por un mes; 2 = retraso de pago por dos meses; . . .; 8 = retraso de pago por ocho meses; 9 = retraso de pago por nueve meses o más.
  8. Variable 12 a 17: es el valor en dólares de la factura de la tarjeta de crédito, X12 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X17.
  9. Variable 18 a 23 corresponde al valor de la facture pagado, X18 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable 23.

Categorice las variables anteriores en los tipos de variables y los niveles de medición que hemos visto, la respuesta en el siguiente párrafo.

Como el post de hoy trata sobre las variables cualitativas vamos a trabajar con el nivel educativo (ordinal), estado civil (nominal), estado del pago de la factura (ordinal) y el género (nominal). Generalmente lo que hacemos es trabajar con tablas de frecuencia. Estas nos presentan las categorías de la variable de interés y cuántas observaciones hay en cada categoría y es lo que llamamos frecuencia absoluta. También podemos calcular la frecuencia relativa que nos indica del total de observaciones que porcentaje corresponde a cada categoría de la variable de interés. Si vemos la tabla de frecuencia del género encontramos que el 60% de los clientes de la tarjeta de crédito son mujeres y el resto son hombres (40%).

Los resultados de la tabla de frecuencia del Estado Civil lo podemos interpretar de la siguiente forma “encontramos que 5 de cada 10 clientes son solteros, 4 de cada 10 clientes está casado, y 1 de cada 10 respondió otra categoría”. ¿Por qué obvio la categoría de no responde? Porque estoy llevando las proporciones a una escala de 10 y la proporción de 0.02 es imperceptible.

Algo más interesante puede ser hacer una tabla cruzada que nos permita ver cómo se relaciona la variable género con la variable estado civil. Vamos a presentarles la tabla cruzada de tres formas para mostrarles la diferencia. La primera tabla solo contiene las frecuencias en cada categoría. Por ejemplo, hay 14 hombres que no respondieron el estado civil. O hay 9411 mujeres que son solteras. La segunda tabla muestra el porcentaje de hombres y mujeres que hay en cada categoría de respuesta de la variable de estado civil, por eso observan que el total de cada fila es 100%. Por ejemplo, podemos decir que el 26% de las personas que no respondieron la variable de estado civil (54) son hombres y el resto son mujeres (74%). La tercera tabla muestra el porcentaje en cada estado civil en cada categoría de la variable género. Por ejemplo, para el caso de las mujeres se observa que el 47% son casadas, el 52% son solteras y el 1% tienen otro tipo de estado civil.

Las tablas son una buena forma de resumir la información, pero no podemos dejar de lado los gráficos. De hecho, las visualizaciones que realicemos de los datos son vitales. El 90% de la información que absorbe nuestro cerebro es visual, nuestro cerebro procesa 60000 veces más rápido las visualizaciones que los textos, es tanto así que 2/3 de los impulsos eléctricos de nuestro cerebro se originan como respuesta a la información visual (Olivares, 2013). Este tema merece su propio post por eso seguiremos con él en nuestra siguiente entrada de la próxima semana y después retomaremos el tema de las estadísticas descriptivas de las variables cuantitativas.

Referencias

  1. Olivero, Ernesto (2013). We are 90% visual beings. Disponible en https://ernestoolivares.com/we-are-90-visuals-beings

LEAVE A COMMENT

es_ESEspañol