Conceptos de estadística
Resumen
Análisis de correlación y análisis de regresión:
a) El análisis de correlación permite medir la fuerza de relación entre
dos o más variables. La simple relación entre dos variables no significa que
exista un nexo entre ambas.
b) El análisis de regresión implica una relación de dependencia entre
la variable dependiente y la variable independiente.
La correlación unida al grado de conexión entre dos variables con el
análisis de regresión es posible la formalización de una hipótesis. La
correlación es positiva si ambas variables aumentan o disminuyen a la vez, y si
una lo hace el contrario que la otra, entonces es una correlación negativa. El
coeficiente de correlación oscila entre -1 y +1.
Hay varias formas de calcular el coeficiente de correlación:
a) a través de un diagrama de dispersión, o
b) a través del coeficiente de Spearman o el de Pearson.
Con el análisis de regresión es posible analizar la relación que existe
entre dos o más variables, así como predecir valores basándose en el modelo. Se
puede determinar la influencia que la variable independiente ejerce sobre la
variable dependiente. La relación más usual es la lineal, cuya ecuación es Y =
Ax+B, siendo A y B los valores constantes.
El análisis exploratorio de datos (EDA) implica el uso de gráficos y
visualizaciones para explorar y analizar un conjunto de datos. Tiene como
objetivo explorar, analizar, investigar y aprender, pero no es válido para
confirmar hipótesis estadísticas.
El coeficiente de Fisher en estadística es una medida que se usa en
estadística para determinar el grado de asimetría de una distribución de
probabilidad, permitiendo así identificar y cuantificar la asimetría de una
distribución de los datos.
Es un indicador que mide la tendencia de dos variables cuantitativas en
su linealidad y proporcionalidad entre ellas. Se simboliza con el R² y puede
tomar los valores -1 y +1 en su modo perfecto o en 0 cuando no hay correlación
en sus datos.
Es una medida de dependencia lineal entre dos variables aleatorias
cuantitativas y es independiente de la escala de medidas de las variables.
Es una medida de rango que mide la dependencia estadística del rango
entre dos variables. Mide la fuerza y la dirección de la asociación entre dos
variables. Para calcular el coeficiente hay que ordenar las variables.
Este coeficiente evalúa la fuerza de la relación lineal entre dos
variables y es muy utilizado para llevar a cabo análisis de tendencias.
Medida de relación entre dos variables en el que su valor está
comprendido entre -1 y +1. Es negativo si en la medida que crece una variable,
decrece la otra; y es positivo, si las dos variables crecen en la misma
posición. Si el coeficiente es 0, no existe correlación alguna.
Es una medida de distribución que divide la posición de los valores en
cuatro partes iguales, resultando tres cuartiles, donde el valor medio
(percentil) es el valor equivalente a la mediana.
Son los puntos de una distribución que se relacionan con el orden que
ocupan en una distribución. Para calcular los cuartiles, se ordenan los datos
de menor a mayor, resultando el 1 primer cuartil con sus datos en el primer
tramo del 25% que quedará por debajo del 75% de los datos. El cuartil 2
equivale a la mediana o al 50% de los datos y el tercer cuartil, ocupa la
posición donde se encuentra el 75% de los datos.
Las medidas de curtosis estudian la distribución de frecuencias en la
zona central de la distribución y según sea esta, la forma de su curva estará
más o menos apuntada. Una curtosis grande implica que una gran cantidad de
valores están alejados del centro. Podemos distinguir tres clases de curtosis:
Leptocúrtica si los valores están muy agrupados en el centro del
gráfico
Mesocúrtica cuando la concentración es moderada alrededor de los
valores centrales
Platicúrtica cuando la forma del gráfico es ancha y sus valores tienden
a estar dispersos en el eje de las x.
Tiene la forma de una campana (campana de Gaus), resultando simétrica y
siendo en su zona central de forma cóncava. Los valores más frecuentes,
aparecen por tanto en el vértice de la campana, y con menos frecuencia en sus
extremos esparciéndose muy cercana al eje de las x.
Es el valor que divide al conjunto total de las observaciones en diez
partes iguales.
La densidad de una variable aleatoria continua describe la probabilidad
relativa, según la cual, dicha variable aleatoria, tomará un determinado valor.
Valor igual o mayor a 0 que mide la dispersión alrededor de la media de
sus valores. Los valores serán más homogéneos o parecidos entre sí cuanto más
se aproxime a 0 el resultado de la desviación típica. La desviación típica es
igual a la raíz cuadrada de la varianza y se calcula aplicando la ecuación v² =
∑ (del valor de cada observación menos la media aritmética)² y dividido entre
el número de observaciones. Calculamos su raíz cuadrada y obtenemos la
desviación típica.
Es la ciencia que comprende una serie de métodos y procedimientos
destinados a la recopilación, tabulación, procesamiento, análisis e
interpretación de datos cualitativos y cuantitativos. Sus técnicas permitir
resumir grandes cantidades de información, estudiar la relación entre variables,
investigar las causas de muchos sucesos y predecir algunos fenómenos en el
tiempo y en el espacio.
Como tema a desarrollar: La estadística es una ciencia que se ocupa de la
obtención, análisis y descripción de los datos para comprender y predecir
fenómenos de interés. La estadística utiliza herramientas matemáticas y de
probabilidad para desarrollar métodos y modelos que permiten extraer
conclusiones relevantes de los datos. La estadística se aplica en diversas
áreas de las ciencias naturales y sociales, la economía, la industria, el
deporte, entre otras.
La estadística se puede dividir en dos
grandes ramas: la estadística descriptiva y la estadística inferencial. La
estadística descriptiva se encarga de resumir y presentar los datos mediante
indicadores, gráficos y tablas. La estadística inferencial se encarga de
generalizar y predecir a partir de los datos, teniendo en cuenta el grado de
incertidumbre. La estadística inferencial se puede subdividir a su vez en
estadística paramétrica y no paramétrica, según se asuman o no determinadas
distribuciones o parámetros en los datos.
Estadística Inferencial:
Es una rama de la Estadística que se enfoca en hacer conclusiones y
generalizaciones sobre una población a partir de una muestra obtenida de la
misma. Su papel es interpretar, hacer proyecciones y comparaciones. Usa
mecanismos de aproximación como intervalos de confianza, pruebas de hipótesis,
pruebas de correlación, test como el ji², etc. Es una ciencia de aproximación,
aunque no exacta.
Valor numérico extraído de las observaciones de una muestra que se
aproxima en mayor o menor medida al parámetro de la población sobre el que se
quiere investigar. Así, la edad media de una población de un grupo de
individuos es un estimador de la edad media de una población.
En estadística, la frecuencia en un evento es el número de veces que se
repite dicho evento durante un determinado experimento. Las diferentes clases
de frecuencia son:
Absoluta: número de veces que se repite cada valor
Relativa: frecuencia absoluta dividido entre el número de observaciones
Absoluta acumulada: suma de las frecuencias absolutas de forma
acumulativa
Relativa acumulada: suma acumulativa de las frecuencias relativas
Porcentaje: valor de la frecuencia relativa * 100
Porcentaje acumulado: suma acumulativa de los porcentajes relativos
Gráfico que muestra la distribución de los datos en cuartiles,
resaltando la mediana y los valores atípicos. Los cuartiles dividen los datos
ordenados en cuatro partes iguales. La caja representa el rango intercuartílico
(diferencia entre el primer y el tercer cuartil). Los bigotes son las líneas
que se extienden hasta el valor mínimo y máximo. Los valores que se encuentran
ya fuera de esas líneas o bigotes, son los atípicos. El primer cuartil abarca
el 25% de los datos ordenados, la mediana el 50% y el tercer cuartil el 75%.
Es una representación que muestra todos los valores de la variable, de
manera ordenada en un esquema que destaca separadamente las cifras que forman
la parte del tallo de las que forman parte de la hoja. Los números se dividen
en dos columnas:
Tallo: uno o más dígitos principales, es el primer dígito de cada valor
que comprende a las decenas. La columna se sitúa en la parte izquierda.
Hoja: son las unidades y la columna se sitúa a la derecha.
14, 18, 24, 27, 35, 39, 40, 42, 44, 46
1 | 4,8
2 | 4,7
3 | 5, 9
4 | 0, 2, 4, 6
Suposición que se utiliza para confirmar o negar un suceso. Siempre que
queramos llegar a una conclusión sobre un suceso, tenemos que plantear dos
hipótesis: la nula y la alternativa. La nula es la hipótesis que pretendemos
rechazar pero si tenemos evidencias suficientes para rechazarla, entonces
confirmamos la hipótesis alternativa.
Hipótesis opuesta a la nula, o test o contraste de hipótesis.
Representación gráfica de una variable en forma de barras, donde la
superficie de cada barra es proporcionar a la frecuencia de los valores
representados. Es un gráfico acumulativo. Son rectángulos proporcionales al
valor de la variable representada. Herramienta muy útil para analizar y
entender la distribución de los datos, como puede ser la asimetría, valores
atípicos, etc.
Es una medida estadística que permite estudiar las fluctuaciones o
variaciones de una o más magnitudes en relación con el tiempo o espacio. Se
pude decir que los números índice son en realidad series temporales.
Tomando el año x sobre y = I : (Y/X) * 100
Índice de covariación:
El índice de covariación en estadística indica el grado de variación
conjunta de dos variables aleatorias con respecto a sus medidas. Es un dato
básico para determinar si existe una dependencia entre ambas variables y otros
parámetros básicos como es el coeficiente de correlación lineal.
(Ver índice).
Procedimiento que permite extrapolar o generalizar a la población los
resultados obtenidos en el análisis de una muestra. Las técnicas utilizadas
para ello incluyen los intervalos de confianza y los test de hipótesis.
Rango de valores que, con una cierta confianza, contiene el parámetro
poblacional que se pretende conocer. El intervalo de confianza se construye a
partir de la información de la muestra y es una de las herramientas utilizadas
para extrapolar resultados a la población.
Se utiliza para probar si dos variables pueden (o no) estar
relacionadas. Equivale a la raíz cuadrada de la varianza. La fórmula es:
Es una medida de tendencia central que nos da el promedio de un
conjunto de datos. Se calcula sumando todos los datos y dividiéndolos por el
número de observaciones.
Media ponderada:
Es una medida de tendencia central que otorga diferentes pesos a los
distintos valores sobre los que se calcula. Se diferencia de la media
aritmética en que no le otorga el mismo valor ni la misma importancia a todos
los valores.
Es el punto medio de un conjunto de datos, donde el 50% de los datos
están por encima de la media y el otro 50% están por debajo de esa media. Los
datos deberán de estar ordenados de menor a mayor o viceversa. Su uso no tiene
sentido en variables cualitativas o nominales. Cuando las posiciones son
impares, la mediana se sitúa en el valor central (1,2,3 = 2) y cuando las
observaciones son pares, la mediana se sitúa en la media aritmética de los dos
valores centrales (1,2,3,4 = (4+1) / 2 = 2,5).
Se basan en medir la desviación o diferencia de cada valor individual
con respecto a la media; nos dice cuánto difieren del valor promedio de los
valores de una distribución y nos dan una idea de la dispersión de los casos
con respecto al valor central. Entre las medidas de dispersión se encuentran:
el rango, desviación estándar o típica (= a la raíz cuadrada de la varianza que
la obtenemos de las diferencias al cuadrado entre cada dato dado y su media
aritmética).
Es el valor que más se repite en un conjunto de datos y es una de las
medidas centrales de un conjunto de datos. Puede no existir.
Grupo de individuos extraídos aleatoriamente de la población de
estudio. Una muestra es un subconjunto de casos o individuos de una población.
La muestra es una parte representativa de la población. Como un subconjunto o
subgrupo representativo de la población extraída o seleccionado por algún
método de muestreo, la muestra siempre es una parte de la población. Si se
tienen varias poblaciones, entonces se tienen varias muestras.
Conjunto de técnicas estadísticas que implican el análisis y la
obtención de conclusiones acerca de un determinado tema de un subgrupo pequeño
de elementos (muestra) para extrapolarlos o inferirlos a todo el conjunto de
elementos de interés de la población.
Probabilidad de que el intervalo de confianza obtenido a partir de los
datos de la muestra contenga el parámetro de la población que se pretende
analizar. Puede tomar un valor entre 0 y 1, aunque el más usual es el 0,05 0
95% de confianza.
Se define como la probabilidad de rechazar la hipótesis nula. Cuanto
más pequeño es el error, mayor será el tamaño de la muestra y por tanto, más
precisos serán los resultados.
Es una variable estadística de posición que divide la posición ordenada
de los datos en 100 partes iguales.
El conjunto de individuos sobre el que se desea realizar una
investigación o estudio. Si se refiere a todos los individuos, se habla de
censo; si el estudio se hace solamente de una parte de la población, se habla
de muestra aleatoria. Una población puede referirse a personas, ciudades,
hogares, condados, escuelas, hospitales, etc.
Medida que cuantifica la ocurrencia de fenómenos ocurridos al azar. Sus
valores están comprendidos entre 0 y +1. Cuando el resultado es 0, no ocurrirá
nunca.
Rango o recorrido de una variable:
Es la diferencia entre el dato mayor y el menor de la variable. El
rango indica la longitud del intervalo en el que se hallan todos los datos de
la distribución.
Técnica estadística que permite determinar la ecuación matemática que
relaciona una variable dependiente (respuesta) con una o varias causas
(variable independiente). Podemos encontrar dos variantes:
- La regresión lineal múltiple, que se da cuando se manejan múltiples
variables independientes que influyen (o no) en la variable dependiente y,
- La regresión lineal simple que se da cuando tenemos una sola variable
independiente para realizar una predicción sobre una variable dependiente.
Los valores residuales de una regresión son la diferencia entre los
valores dados y los valores estimados o esperados. Se pueden usar para calcular
el error en una ecuación de regresión o para evaluar distintas suposiciones. Un
modelo de mínimos cuadrados minimiza la suma de los residuos al cuadrado.
Variable cuyo valor va cambiando a lo largo del tiempo. Es una sucesión
de datos medidos en momentos específicos y ordenados cronológicamente.
Estudio de una variable que va cambiando a través del tiempo como
pueden ser las ventas de una empresa. Se mide la tendencia, variaciones
periódicas, componentes estacionales o componentes erráticos debidos a una
huelga, catástrofes naturales o pandemias.
Tabla de al menos dos filas y dos columnas para representar datos
categóricos en términos de conteo de frecuencia o porcentajes. Se utilizan para
analizar la relación entre dos variables y cálculo de probabilidades.
Número de sujetos necesarios para llevar a cabo una investigación, de
manera que los resultados obtenidos se aproximan a los que se tendrían al
estudiar toda la población. El tamaño de una muestra será mayor cuanto más
deseemos que el error sea menor.
Técnica estadística utilizada para decidir si una afirmación
establecida por el investigador sobre la población de estudio es compatible con
los resultados observados en una muestra. Se compone de una hipótesis nula,
formulada en términos de igualdad o negación y una hipótesis alternativa.
La prueba de hipótesis o prueba de significación es un procedimiento
para juzgar si una propiedad que se supone en una población estadística es
compatible con lo observado en una muestra de dicha población.
El universo en estadística lo componen todos los individuos de una
población sobre los cuales se puede llevar a cabo un estudio estadístico,
mientras que la muestra, es el conjunto de individuos sobre los que realmente
se realiza dicho estudio.
Es la evidencia contra una hipótesis nula. Cuanto menor es el valor “p”
más fuerte es la evidencia de que existe una relación estadísticamente
significativa entre las variables de un estudio. El valor “p” se expresa en
decimales (0,05 = 95%), valor con el que la hipótesis nula se puede rechazar.
Valor residual en el análisis de regresión:
Es la diferencia entre el valor dado y el valor esperado calculados con
la ecucación de regresión. Este valor se puede usar para calcular el error en
una ecuación de regresión y otros supuestos. Un modelo de mínimos cuadrados
minimiza la suma de los residuos al cuadrado.
Variabilidad, medidas de:
Las medidas de dispersión -variabilidad o propagación-, es el grado en
que una distribución se estira o se comprime. Las medidas más conocidas son:
varianza, desviación estándar y el rango Intercuartil. Cuanto mayor sea el
coeficiente de variación, mayor será la dispersión de los datos.
Variable:
Característica de la población de la muestra. El valor de la variable
puede “variar” de un sujeto a otro. Según su naturaleza, las variables pueden
ser cualitativas (sexo) o cuantitativas (edad).
Son las variables ordinales y nominales que son categóricas o
cualitativas. No admiten varios principios clasificatorios (o macho o hembra).
Son las variables que se miden y se expresan en números enteros o en
decimales.
Discreta cuando no puede tener un valor entre dos valores consecutivos
(cinco hijos o seis hijos, pero no 5,5 hijos), y
Continua cuando puede asumir un número incontable de valores (densidad
de una pieza, velocidad a la que viaja un tren, Kgs de aceituna de una
cosecha).
Categórica o cualitativa (expresa categorías), como puede ser la nota
que se pone o se valora un servicio (de 0 a 10).
Variable nominal:
Clasificación intrínseca como: Distrito Postal, confesión religiosa.
Asume valores sin importar el orden, raza o género. Puede ser dicotónica:
“sí-no, presente-ausente”.
Variables, principales escalas de medida de las:
Escala nominal: variables cualitativas que no implican orden o
jerarquía
Escala ordinal: se pueden ordenar o clasificar
Escala de intervalo: permiten medir puntos de intervalos entre los
diferentes valores
Escala de razón: escala parecida a la de intervalo, pero partiendo de
“0”.
Decimos que una serie temporal es estacional cuando los fenómenos que
ocurren en el tiempo se repiten en periodos idénticos, a una hora determinada,
un día, mes o año. El índice de variación se calcula promediando los valores de
cada mes y dividiendo entre la serie original y la serie de medias móviles.
Variaciones accidentales:
Movimientos irregulares de las series temporales debidas a sucesos
ocasionales como pueden ser las huelgas, inundaciones, terremotos, pandemias,
etc.
Es una medida usada en estadística para determinar la variación
existente entre dos o más muestras (variables).
Medida de dispersión que representa la variabilidad de una serie de
datos con respecto a su media.
Los residuos son los valores resultantes de restar los datos dados de
una variable al cuadrado y el valor medio de la suma de los datos de esa
variable.
Se calcula como la suma de los residuos al cuadrado dividido entre el
total de las observaciones.
La varianza es siempre = o mayor a 0, ya que, al elevar las diferencias
al cuadrado, el resultado nunca puede salir negativo. La varianza es pues,
igual a la desviación típica elevada al cuadrado.
No hay comentarios:
Publicar un comentario