Carlos Jimémez-Gallardo , 2019
Estadístico
MSc Infórmatica Educativa
Universidad de La Frontera
Data Scientist
www.innovate.cl
es evidente que R es una herramienta que, a los que realizamos Análisis de Datos, no ha dado bastante libertad. Al respecto es bueno tener ciertas consideraciones respectos de la presentacion.
un propósito, si tiene claro que quiere decir con el gráfico es más fácil escogerlo.
cúal(es) es (son) el tipo de variable que graficará.
a veces es necesario crear nuevas variables en el dataset
muchas veces el gráfico requiere de una tabla resumen.
Las librerias son esenciales para facilitarse la vida. Algunas de ellas
library(tidyverse) # carga un conjunto de librerias necesarias, entre ellas dplyr, ggplot2
library(dygraphs)
library(gganimate)
library(plotly)
library(esquisse) # para grafica dinamica
library(GGally) #grafica
library(ggthemes) #grafica
library(ggThemeAssist) #grafica
library(gdtools) #grafica
library(ggplot2) #mejoras de graficos
library(highcharter) #para graficar
library(hrbrthemes)
library(viridis) #grafica
library(lattice) # graficas avanzada
si bien todas ayudan, para este documento solo utilizaré GGPLOT2 para no hacer un documento tan extenso.
pueden encontrar el archivo de datos en el siguiente link: https://github.com/cjimenezgallardo/DATASETS/blob/main/datos_empleados.xlsx
Los datos corresponden Sueldo percibidos en una empresa, y que como variable, se tienen:
dataej<-datos_empleados
names(dataej)
## [1] "ID" "Sexo" "FechaNAc" "educacion"
## [5] "labor" "Sueldo_actual" "Sueldo_inicial" "antigüedad"
## [9] "experiencia" "minoria"
CONSEJO: realice un bosquejo manual, que le permita entender que quiere mostrar, para que luego lo contrareste con lo que aparecio en R
Objetivo, mostrar el Comportamiento del sueldo actual.
nota: como es una variable de tipo continua, es ideal buscar el grafico adeacuado para el tipo de objetivo, en este caso podria funcionar bien un histograma
ggplot(data = dataej,aes(x=Sueldo_actual))+
geom_histogram()
NOTA: el histograma se hace respecto de todos los datos del DATASET original
es necesario mejorar algunas cosas, como por ejemplo.
Titulo
Rotulos,
Escalas
Colores etc.
número de barras (breaks, bins) idealmente utilice el metodo Sturges para su calculo
ggplot(data = dataej,aes(x=Sueldo_actual))+
geom_histogram(color=1,
bins=9,
fill="red",alpha=0.5)+
ggtitle("Distribución Sueldo Actual")+
xlab("sueldo Actual")+
scale_x_continuous(limits = c(15000,140000))+
ylab("Cantidad")
ggplot(data = dataej,aes(x=Sueldo_actual))+
geom_density(color=1,
prob=TRUE,
fill="red",alpha=0.5)+
ggtitle("Distribución Sueldo Actual")+
xlab("sueldo Actual")+
scale_x_continuous(limits = c(15000,140000))+
ylab("Densidad")