Introducción a la idea de datos.


En esta sección vamos a crear las tablas de datos que se ha trabajado en introducción a la idea de datos en el blog de "Explorando el Mundo de la Estadística: Conceptos Básicos y Aplicaciones" con el software RStudio


Ejercicio 1 

Tenemos una bolsa con dulces con diferentes sabores: manzana, fresa, limón, piña, mora, uva, mandarina y cereza. Por cada sabor hay una cantidad diferente: 5 de manzana, 3 de fresa, 6 de limón, 4 de piña, 5 de mora, 3 de coco, 2 de uva y 2 de mandarina.

Para crear la tabla en RStudio, hacemos lo siguiente:


Paso 1: Abrimos el programa RStudio.


Paso 2: En el editor de texto (parte superior) escribiremos lo siguiente:

# Definir los datos

sabDul <- c("Manzana", "Fresa", "Limón", "Piña","Mora","Coco", "Uva", "Mandarina")

cant <- c(5, 3, 6, 4, 5, 3, 2, 2)

mi_tabla <- data.frame(`Sabor de Dulces` = sabDul, Cantidad = cant)

mi_tabla


Paso 3: Seleccionamos todas las líneas o presionamos las teclas  Control + A para seleccionar todo.


Paso 4: Presionamos Control + Enter para correr el código. En la parte inferior (la consola) nos arrojará la información de nuestro código, creando una tabla de datos donde relaciona cada sabor de dulce con su respectiva cantidad.



¿Quieres saber el total de la cantidad de datos?

Escribimos en el editor de texto lo siguiente

sumT <- sum(mi_tabla$Cantidad)

Seleccionamos la línea anterior y presionamos Control + Enter


Podemos ver la cantidad total de dulces que hay.


Ejercicio 2


Se ha preguntado a 35 personas cual es su marca de carros preferida. Se tiene los datos de esta manera:


Donde C es Chevrolet, R es Renault, H es Hyundai, W es Volkswagen, N es Nissan

En este ejercicio se diferencia del otro, pues no sabemos concretamente cuantos carros de cada marca hay. Sin embargo, estos datos se pueden introducir como se muestra en el recuadro. Esto anterior se hace de la siguiente manera.

Paso 1:

En un nuevo archivo script copiamos el siguiente código:

#definir datos
marcasCarro <- c("C","R","N","H","W","R","W","H","R","C",
                 "N","H","R","N","R","H","W","C","C","W",
                 "W","H","R","R","C","C","H","N","N","R","H","W","C","R","N")

# Crear una tabla de frecuencia
tabla_frecuencia <- table(marcasCarro)

# Convertir la tabla de frecuencia en un data frame.
df_frecuencia <- data.frame(tabla_frecuencia)

# Renombrar las columnas
colnames(df_frecuencia) <- c("Marca de Carro", "Cantidad")

# Mostrar la tabla de frecuencia 
print(df_frecuencia)

Paso 2:

Presionamos Ctrl + A y Luego Ctrl + Enter



Podemos ver que nos genera una tabla donde nos da la información correspondiente de cada marca, representada con su inicial y su respectiva cantidad. Podemos ver que el programa de RStudio nos organiza de forma resumida la información que le suministramos.

Si queremos reemplazar las letras por la marca del nombre copiamos el siguiente código y lo ejecutamos.


#definir datos
marcasCarro <- c("C","R","N","H","W","R","W","H","R","C",
                 "N","H","R","N","R","H","W","C","C","W",
                 "W","H","R","R","C","C","H","N","N","R","H","W","C","R","N")

# Vector de nombres de marca correspondientes a las letras
nombres_marca <- c("C" = "Chevrolet", "R" = "Renault", "N" = "Nissan", "H" = "Hyundai", "W" = "Volkswagen")

# Reemplazar las letras por los nombres de marca y manejar las no correspondencias con "Desconocida"
marcas_con_nombres <- ifelse(marcasCarro %in% names(nombres_marca), nombres_marca[marcasCarro], "Desconocida")

#Crea una tabla de datos
tablaCar <- table(marcas_con_nombres)

# Convertir la tabla de frecuencia en un data frame.
df_frecuencia <-data.frame(table(marcas_con_nombres))

# Renombrar las columnas
colnames(df_frecuencia) <- c("Marca de Carro", "Cantidad")

# Mostrar la tabla de frecuencia vertical
print(df_frecuencia)



Podemos ver que están renombradas las marcas de carro con su respectiva cantidad.


Explicación Código

Ejercicio 1


Creamos dos vectores y a cada uno les asignamos un nombre. En este caso sabDul y cant. Escribimos "<-" que es para asignar los datos a ingresar. y luego c() para combinar los datos a ingresar en el paréntesis. Adentro de los paréntesis ingresamos los datos y los separamos mediante de una coma. Si es una cadena de texto que queremos mostrar tal cual como se escribe, lo encerramos en comillas "" (tal como se muestra con la variable cant).

Una vez creados los vectores con los datos, procedemos a crear un data.frame(), el cual, nos organiza los datos creados en forma de matriz y adentro del paréntesis escribimos el título que queremos mostrar encerrados en comillas para cada vector que creamos, separado uno del otro por comas, tal como se muestra en el ejercicio. Esto se asigna a una variable con un nombre.

Luego escribimos el nombre del vector donde está el data frame para visualizar el resultado.

Para la suma, creamos otra variable y lo asignamos mediante el símbolo <- a la función sum(), el cual, da la suma total de los datos cuantitativos. Adentro del paréntesis escribimos el nombre del data frame que asignamos, mas el símbolo $, seguido del vector en donde están los números, que en este caso es Cantidad.


Ejercicio 2


En este ejercicio se crea una variable (marcasCarro) para asignar a un vector donde se ingresa las letras entre comillas (por ser cadena de texto) tal como esta en la tabla del ejercicio.

Luego, se crea otra variable (tabla_frecuencia) y para crear una tabla de datos escribimos la función table() y entre paréntesis la variable en donde ingresamos los datos (marcasCarro).

Creamos un data frame con la tabla de datos mediante la función data.frame(). En paréntesis colocamos el nombre de la variable en donde se creo la tabla de datos (tabla_frecuencia).

Renombramos cada columna con la función colnames() y adentro de los paréntesis colocamos el nombre donde está el data frame (df_frecuencia) y escribimos los nombres que tendrá cada columna. ("Marca de Carro", "Cantidad").

Con la función print, mostramos la tabla de datos.

Para asignar los nombres completos de cada letra, se usa la variable (marcasCarro) y se crea otro vector con una nueva variable (nombres_marca)  en donde se asigna cada letra con el nombre de la marca por medio del signo "=".

Para reeemplazar las letras por los nombres de marca, se crea una variable (marcas_con_nombres) y luego se usa la sentencia ifelse() y adentro del paréntesis colocamos: nombre del vector donde se ingresaron los datos (), %in%, la función names() el cual, nos devuelve los nombres de las variables contenidas de la variable adentro del paréntesis. En este caso se escribe la variable en donde están los nombres completos ya asignados (nombres_marca) , se vuelve a escribir la otra vez variable anterior, seguido de unos corchetes [] donde adentro de ellos se escribe la variable en donde están listados las letras ingresadas (marcasCarro), seguido de "Desconocida" en caso de que no corresponda a alguna asignación de letras con marca.

Luego, se crea una variable (tablaCar) y para crear una tabla de datos escribimos la función table() y entre paréntesis la variable en donde se han reemplazado las letras por marcas (marcas_con_nombres).

Creamos un data frame con la tabla de datos mediante la función data.frame(). En paréntesis colocamos el nombre de la variable en donde se creo la tabla de datos (marcas_con_nombres).

Renombramos cada columna con la función colnames() y adentro de los paréntesis colocamos el nombre donde está el data frame (df_frecuencia) y escribimos los nombres que tendrá cada columna. ("Marca de Carro", "Cantidad").

Con la función print, mostramos la tabla de datos.




Comentarios

Entradas más populares de este blog

Bienvenida