Generalidades de la estadística y breve introducción a R

Introducción

La estadística es la rama de las Matemáticas que comprende un conjunto de técnicas que se encargan de la recolección, organización, análisis e interpretación de datos que presentan variabilidad o incertidumbre. Esto nos sirve para realizar juicios inteligentes y tomar decisiones informadas. La estadística no es una ciencia, se desprende de las Matemáticas, que sí son una ciencia.

Los datos, la materia prima del investigador, son mediciones u observaciones documentadas de un experimento o fenómeno.

Al investigar un fenómeno, nos enfocamos en un conjunto de objetos que tienen ciertas características constantes que llamaremos población de interés. Si tuviésemos todos los objetos de la población disponibles para nuestro estudio, tendríamos un censo, pero esta situación es rara debido a varias limitaciones, como tiempo y dinero. Por esto, seleccionamos un subconjunto de la población de interés -mediante métodos que tocaremos después- llamada muestra.

Normalmente, no nos interesa estudiar todas las características de una población, sino solo algunas de ellas. Una variable es cualquier característica cuyo valor pueda cambiar de objeto a otro en un conjunto de objetos.
Las variables son representadas por letras del abecedario (en R, por cualquier serie de caracteres alfanuméricos al que le asignamos un conjunto de datos)…

c("a", "b", "c", "d", ..., "x", "y", "z")

En R podríamos hacer algo como…

alphanumeric

print(alphanumeric)

## [1] "A 1" "B 2" "C 3" "D 4" "E 5" "F 6" "G 7" "H 8" "I 9" "J 10"
## [11] "K 11" "L 12" "M 13" "N 14" "O 15" "P 16" "Q 17" "R 18" "S 19" "T 20"
## [21] "U 21" "V 22" "W 23" "X 24" "Y 25" "Z 26"

Para crear 26 elementos de caracteres alfanuméricos en el objeto alphanumeric para asignar a nuevas variables.

Antes de iniciar una investigación, debemos definir la utilidad de cada variable que vamos a medir y cómo se relaciona con otras variables, para empezar a considerar el método de análisis estadístico más adecuado (se toman en cuenta otros parámetros que veremos más adelante).

Tipos de variables

Las variables se pueden clasificar según cómo las medimos en…

  • Variables cualitativas
    Denotan cualidades o atributos de las unidades experimentales. Pueden clasificarse en un número finito de categorías mutuamente excluyentes y exhaustivas. Es decir, que cada dato debe pertenecer a alguna categoría y solo una categoría. De acuerdo al número de valores que pueden tomar, se clasifican como:
  • Cualitativa dicotómica. Puede tomar solo dos valores…
    (“mujer”, “varón”)
  • Cualitativa politómica. Puede tomar tres o más valores…
    (verde, blanco, rojo…)

De acuerdo al orden que pueden ser:
+ Cualitativa ordinal. Tienen un orden…
(leve, moderado, severo)
+ Cualitativa nominal. No tienen un orden…
(verde, blanco, rojo)

  • Variables cuantitativas
    Son variables que representan respuestas con significado numérico, es decir, toman como argumento un valor matemático. Estas pueden ser:
  • Variables cuantitativas discretas
    Son resultado de un conteo, y toman valores numéricos enteros (no tienen decimales)
    (1, 2, 3, 4…)
  • Variables contínuas
    Son resultado de una medición, y pueden tomar cualquier valor numérico.
    (1.8, 3.4, 2.0, 1.54, …)

De acuerdo a la influencia que tienen unas variables sobre otras, se clasifican en:

  • Variable independiente
    Una variable independiente es aquella cuyo valor no depende de otra variable. La variable independiente se representa en el eje de abscisas $x$.
    Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de control, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo.
    Es aquella característica o propiedad que se supone ser la causa del fenómeno estudiado. En investigación experimental se llama así a la variable que el investigador manipula.

En el ejemplo al final del post, la variable independiente es el Índice de Masa Corporal.

  • Variable dependiente
    Una variable dependiente es aquella cuyos valores dependen de los que tomen otra variable. La variable dependiente en una función se suele representar por $y$. La variable dependiente se representa en el eje ordenadas. Son las variables de respuesta que se observan en el estudio y que podrían estar influidas por los valores de las variables independientes.
    Es la propiedad o característica que se trata de cambiar mediante la manipulación de la variable independiente. Puesto en otras palabras, la variable dependiente es el factor que es observado y medido para determinar el efecto de la variable independiente.
    En el ejemplo al final del post, la variable dependiente es la Presión Arterial.

Introducción a R y aplicaciones

R es un sistema para computación estadística y de gráficas. Incluye un lenguaje de programación, gráficas de alto nivel, interfaces para otros lenguajes, y facilidad para hacer debugging.

R es gratuito, open source, versátil y poderoso.

Imaginemos que queremos estudiar la influencia del Índice de Masa Corporal (variable independiente) sobre la Presión arterial (variable dependiente). Para esto tomamos la presión arterial de 15 individuos (muestra MUY pequeña y sin método de muestreo, pero es solo un ejemplo) y recolectamos las siguientes variables:

  • Edad (age)
  • Sexo (sex)
  • Índice de masa corporal (BMI)
  • Presión arterial (blood_pressure)

¿De qué tipo es cada una de las variables?

Para crear nuestras variables cuantitativas:

## VARIABLE CUANTITATIVA DISCRETA
age age # mostrar variable, es lo mismo que escribir print(age)

## [1] 25 25 27 27 26 29 19 29 24 28 28 21 23 23 19
## VARIABLE CUANTITATIVA CONTINUA
BMI BMI

BMI

## [1] 19.0 29.0 27.5 28.5 19.0 32.0 23.5 26.0 18.5 29.5 20.0 23.5 26.5 31.5
## [15] 25.5

Para crear variables cualitativas:

Variable Cualitativa Nominal Dicotómica:

## VARIABLE CUALITATIVA NOMINAL DICOTÓMICA
sex sex

sex

## [1] male female female male female female female male male male
## [11] female male male male male
## Levels: male female

Variable Cualitativa Ordinal Politómica:

## VARIABLE CUALITATIVA ORDINAL POLITÓMICA
blood.pressure blood.pressure

print(blood.pressure) # Mostrar la variable

## [1] middle high middle high high high high high low low
## [11] middle high high middle low
## Levels: low < middle < high

o más facil…

# o más facil
blood.pressure2

blood.pressure2

## [1] middle middle high low low high middle high high middle
## [11] high high middle high high
## Levels: low middle high

Ahora combinamos todo en la el mismo conjunto de datos (data frame):

data names(data)

data

## Sexo Edad IMC Presión arterial
## 1 male 25 19.0 middle
## 2 female 25 29.0 high
## 3 female 27 27.5 middle
## 4 male 27 28.5 high
## 5 female 26 19.0 high
## 6 female 29 32.0 high
## 7 female 19 23.5 high
## 8 male 29 26.0 high
## 9 male 24 18.5 low
## 10 male 28 29.5 low
## 11 female 28 20.0 middle
## 12 male 21 23.5 high
## 13 male 23 26.5 high
## 14 male 23 31.5 middle
## 15 male 19 25.5 low

Código en Rmarkdown de esta publicación Es necesario instalar los paquetes knitr y rmarkdown con la función

install.packages("knitr") # Instalamos el paquete del espejo CRAN más cercano o el que esté por default
install.packages("rmarkdown") # Lo mismo

library(knitr) # Cargamos el paquete al espacio de trabajo
library(rmarkdown) #Lo mismo

Nos leemos en la próxima entrega…

Referencias

  1. Variable Estadística en mi querida Wikipedia, accedido en Wed Nov 12 15:42:48 2014 URL: https://es.wikipedia.org/wiki/Variable_estad%C3%ADstica
  2. Jay, L. D. (2008). Probabilidad y estadística para ingeniería y ciencias. California. Editorial Cengage Learning.
  3. Documentación de R
  4. Mi querido Google
Advertisements

What do you think of this post?

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s