Cómo hacer análisis de datos exploratorios (EDA) en R (con ejemplos)

Comparte en redes sociales

Aprenda todo lo que necesita saber sobre el análisis exploratorio de datos, un proceso fundamental que se utiliza para descubrir tendencias y patrones y resumir conjuntos de datos mediante resúmenes estadísticos y representaciones gráficas.

Como cualquier proyecto, un proyecto de ciencia de datos es un proceso largo que requiere tiempo, buena organización y respeto escrupuloso por varios pasos. El análisis exploratorio de datos (EDA) es uno de los pasos más importantes en este proceso.

Por lo tanto, en este artículo, veremos brevemente qué es el análisis exploratorio de datos y cómo puede realizarlo con R.

¿Qué es el análisis exploratorio de datos?

El análisis exploratorio de datos examina e investiga las características de un conjunto de datos antes de someterlo a una aplicación, ya sea exclusivamente empresarial, estadística o de aprendizaje automático.

Este resumen de la naturaleza de la información y sus principales particularidades se realiza generalmente por métodos visuales, como representaciones gráficas y tablas. La práctica se lleva a cabo aguas arriba precisamente para evaluar el potencial de estos datos, que recibirán un procesamiento más complejo en el futuro.

Por lo tanto, la EDA permite:

Formular suposiciones para el uso de esta información;
Explore detalles ocultos en la estructura de datos;
Identificar valores perdidos, valores atípicos o comportamientos anormales;
Descubre tendencias y variables relevantes en su conjunto;
Eliminar variables irrelevantes o variables correlacionadas con otras;
Determinar el modelo formal a utilizar.

¿Cuál es la diferencia entre el análisis de datos descriptivo y exploratorio?

Existen dos tipos de análisis de datos, el análisis descriptivo y el análisis exploratorio de datos, que van de la mano, a pesar de tener objetivos diferentes.

Mientras que el primero se enfoca en describir el comportamiento de las variables, por ejemplo, media, mediana, moda, etc.

El análisis exploratorio tiene como objetivo identificar relaciones entre variables, extraer información preliminar y modelar directamente hacia los paradigmas de aprendizaje automático más comunes: clasificación, regresión y agrupación.

En común, ambos pueden tratar con la representación gráfica; sin embargo, solo el análisis exploratorio busca proporcionar información utilizable, es decir, información que desencadene la acción por parte del tomador de decisiones.

Finalmente, mientras que el análisis exploratorio de datos tiene como objetivo resolver problemas y brindar soluciones que guiarán los pasos del modelado, el análisis descriptivo, como su nombre indica, solo tiene como objetivo producir una descripción detallada del juego de datos en cuestión.

Análisis descriptivo	Análisis exploratorio de datos
Analizar el comportamiento	Analizar el comportamiento y la relación.
Proporciona un resumen	Conduce a especificaciones y acciones.
Organiza los datos en tablas y gráficos.	Organiza los datos en tablas y gráficos.
No tiene un poder explicativo significativo.	Tiene un poder explicativo significativo.

Algunos casos prácticos de uso de EDA

#1. publicidad digital

El marketing digital ha evolucionado de un proceso creativo a un proceso basado en datos. Las organizaciones de marketing utilizan el análisis exploratorio de datos para determinar los resultados de las campañas o esfuerzos y para guiar las inversiones de los consumidores y las decisiones de orientación.

Leer también Protocolos de comunicación de IoT: MQTT frente a CoAP frente a HTTP

Los estudios demográficos, la segmentación de clientes y otras técnicas permiten a los especialistas en marketing utilizar grandes cantidades de datos de panel, encuestas y compras de consumidores para comprender y comunicar el marketing estratégico.

El análisis exploratorio web permite a los especialistas en marketing recopilar información a nivel de sesión sobre las interacciones en un sitio web. Google Analytics es un ejemplo de una herramienta de análisis gratuita y popular que los especialistas en marketing utilizan para este propósito.

Las técnicas exploratorias que se utilizan con frecuencia en el marketing incluyen el modelado de la mezcla de marketing, los análisis de precios y promociones, la optimización de ventas y el análisis exploratorio de clientes, por ejemplo, la segmentación.

#2. Análisis exploratorio de cartera

Una aplicación común del análisis exploratorio de datos es el análisis exploratorio de cartera. Un banco o agencia de crédito tiene una colección de cuentas de valor y riesgo variable.

Las cuentas pueden diferir según el estatus social del titular (rico, clase media, pobre, etc.), la ubicación geográfica, el patrimonio neto y muchos otros factores. El prestamista debe equilibrar el rendimiento del préstamo con el riesgo de incumplimiento de cada préstamo. La pregunta entonces es cómo valorar la cartera en su conjunto.

El préstamo menos arriesgado puede ser para los muy ricos, pero hay un número muy limitado de personas ricas. Por otro lado, mucha gente pobre puede prestar, pero con mayor riesgo.

La solución de análisis exploratorio de datos puede combinar el análisis de series temporales con muchos otros problemas para decidir cuándo prestar dinero a estos diferentes segmentos de prestatarios o la tasa de préstamo. Se cargan intereses a los miembros de un segmento de cartera para cubrir las pérdidas entre los miembros de ese segmento.

#3. Análisis exploratorio de riesgos

Se están desarrollando modelos predictivos en la banca para brindar certeza sobre las puntuaciones de riesgo para clientes individuales. Los puntajes de crédito están diseñados para predecir el comportamiento delictivo de un individuo y se usan ampliamente para evaluar la solvencia de cada solicitante.

Asimismo, se realizan análisis de riesgos en el mundo científico y en la industria aseguradora. También se usa ampliamente en instituciones financieras como las empresas de pasarelas de pago en línea para analizar si una transacción es genuina o fraudulenta.

Leer también Agile Project Management and DevOps: Streamlining Technology Delivery

Para ello, utilizan el historial de transacciones del cliente. Se usa más comúnmente en compras con tarjeta de crédito; cuando hay un aumento repentino en el volumen de transacciones del cliente, el cliente recibe una llamada de confirmación si inició la transacción. También ayuda a reducir las pérdidas debido a tales circunstancias.

Análisis exploratorio de datos con R

Lo primero que debe hacer EDA con R es descargar R base y R Studio (IDE), luego instalar y cargar los siguientes paquetes:

#Installing Packages
install.packages("dplyr")
install.packages("ggplot2")
install.packages("magrittr") 
install.packages("tsibble")
install.packages("forecast")
install.packages("skimr")

#Loading Packages
library(dplyr)
library(ggplot2)
library(magrittr)
library(tsibble)
library(forecast)
library(skimr)

Para este tutorial, usaremos un conjunto de datos económicos integrado en R que proporciona datos de indicadores económicos anuales para la economía de EE. UU. y cambiaremos su nombre a econ para simplificar:

econ <- ggplot2::economics

Para realizar el análisis descriptivo, utilizaremos el skimr paquete, que calcula estas estadísticas de una manera simple y bien presentada:

#Descriptive Analysis
skimr::skim(econ)

También puede utilizar el summary función de análisis descriptivo:

Aquí, el análisis descriptivo muestra 547 filas y 6 columnas en el conjunto de datos. El valor mínimo corresponde a 1967-07-01 y el valor máximo corresponde a 2015-04-01. Del mismo modo, también muestra el valor medio y la desviación estándar.

Ahora tiene una idea básica de lo que hay dentro del conjunto de datos económicos. Dibujemos un histograma de la variable uempmed Para ver mejor los datos:

#Histogram of Unemployment
econ %&gt;%
  ggplot2::ggplot() +
  ggplot2::aes(x = uempmed) +
  ggplot2::geom_histogram() +
  labs(x = "Unemployment", title = "Monthly Unemployment Rate in US between 1967 to 2015")

La distribución del histograma muestra que tiene una cola alargada a la derecha; es decir, puede haber algunas observaciones de esta variable con valores más “extremos”. Surge la pregunta: ¿en qué período se produjeron estos valores y cuál es la tendencia de la variable?

La forma más directa de identificar la tendencia de una variable es utilizar un gráfico de líneas. A continuación, generamos un gráfico de líneas y agregamos una línea de suavizado:

#Line Graph of Unemployment
econ %&gt;%
  ggplot2::autoplot(uempmed) +
  ggplot2::geom_smooth()

Mediante este gráfico, podemos identificar que en el período más reciente, en las últimas observaciones de 2010, existe una tendencia de aumento del desempleo, superando el histórico observado en décadas anteriores.

Otro punto importante, particularmente en el contexto de la modelación econométrica, es la estacionariedad de la serie; en otras palabras, ¿la media y la varianza son constantes en el tiempo?

Cuando estos supuestos no son ciertos en una variable, se dice que la serie tiene raíz unitaria (no estacionaria) por lo que los choques a la variable generan un efecto permanente.

Este parece haber sido el caso de la variable en cuestión, la duración del desempleo. Hemos visto que las fluctuaciones de la variable han cambiado considerablemente, lo que tiene fuertes implicaciones relacionadas con las teorías económicas que tratan de ciclos. Pero, partiendo de la teoría, ¿cómo comprobamos prácticamente si la variable es estacionaria?

Leer también Intel y DigitalBridge lanzan la nueva plataforma GenAI Articul8

El paquete de pronóstico tiene una excelente función para aplicar pruebas, como ADF, KPSS y otras, que ya devuelven el número de diferencias necesarias para que la serie sea estacionaria:

 #Using ADF test for checking stationarity
forecast::ndiffs( 
  x    = econ$uempmed,
  test = "adf")

Aquí, el valor p superior a 0,05 muestra que los datos no son estacionarios.

Otro problema importante en las series de tiempo es identificar las posibles correlaciones (la relación lineal) entre los valores rezagados de la serie. Los correlogramas ACF y PACF permiten identificarlo.

Dado que la serie no tiene estacionalidad pero tiene alguna tendencia, las autocorrelaciones iniciales tienden a ser grandes y positivas porque las observaciones cercanas en el tiempo también tienen un valor cercano.

Así, la función de autocorrelación (ACF) de una serie temporal de tendencia tiende a tener valores positivos que disminuyen lentamente a medida que aumentan los rezagos.

#Residuals of Unemployment 
checkresiduals(econ$uempmed) 
pacf(econ$uempmed)

Conclusión

Cuando tenemos en nuestras manos datos más o menos limpios, es decir, ya limpios, estamos inmediatamente tentados de sumergirnos en la etapa de construcción del modelo para extraer los primeros resultados. Debe resistir esta tentación y comenzar a realizar un análisis exploratorio de datos, que es simple pero nos ayuda a obtener información valiosa a partir de los datos.

También puede explorar algunos de los mejores recursos para aprender estadísticas de ciencia de datos.

Source link

Si quiere puede hacernos una donación por el trabajo que hacemos, lo apreciaremos mucho.

Direcciones de Billetera:

- BTC: 14xsuQRtT3Abek4zgDWZxJXs9VRdwxyPUS

- USDT: TQmV9FyrcpeaZMro3M1yeEHnNjv7xKZDNe

- BNB: 0x2fdb9034507b6d505d351a6f59d877040d0edb0f

- DOGE: D5SZesmFQGYVkE5trYYLF8hNPBgXgYcmrx

También puede seguirnos en nuestras Redes sociales para mantenerse al tanto de los últimos post de la web:

-Twitter

- Telegram

Disclaimer: En Cryptoshitcompra.com no nos hacemos responsables de ninguna inversión de ningún visitante, nosotros simplemente damos información sobre Tokens, juegos NFT y criptomonedas, no recomendamos inversiones