Historias de la Historia : Estadística para historiadores

Conceptos de estadística

Resumen

Análisis de correlación y análisis de regresión:

a) El análisis de correlación permite medir la fuerza de relación entre dos o más variables. La simple relación entre dos variables no significa que exista un nexo entre ambas.

b) El análisis de regresión implica una relación de dependencia entre la variable dependiente y la variable independiente.

La correlación unida al grado de conexión entre dos variables con el análisis de regresión es posible la formalización de una hipótesis. La correlación es positiva si ambas variables aumentan o disminuyen a la vez, y si una lo hace el contrario que la otra, entonces es una correlación negativa. El coeficiente de correlación oscila entre -1 y +1.

Hay varias formas de calcular el coeficiente de correlación:

a) a través de un diagrama de dispersión, o

b) a través del coeficiente de Spearman o el de Pearson.

Análisis de regresión:

Con el análisis de regresión es posible analizar la relación que existe entre dos o más variables, así como predecir valores basándose en el modelo. Se puede determinar la influencia que la variable independiente ejerce sobre la variable dependiente. La relación más usual es la lineal, cuya ecuación es Y = Ax+B, siendo A y B los valores constantes.

Análisis exploratorio de datos:

El análisis exploratorio de datos (EDA) implica el uso de gráficos y visualizaciones para explorar y analizar un conjunto de datos. Tiene como objetivo explorar, analizar, investigar y aprender, pero no es válido para confirmar hipótesis estadísticas.

Asimetría:

El coeficiente de Fisher en estadística es una medida que se usa en estadística para determinar el grado de asimetría de una distribución de probabilidad, permitiendo así identificar y cuantificar la asimetría de una distribución de los datos.

Coeficiente de correlación:

Es un indicador que mide la tendencia de dos variables cuantitativas en su linealidad y proporcionalidad entre ellas. Se simboliza con el R² y puede tomar los valores -1 y +1 en su modo perfecto o en 0 cuando no hay correlación en sus datos.

Coeficiente de correlación de Pearson:

Es una medida de dependencia lineal entre dos variables aleatorias cuantitativas y es independiente de la escala de medidas de las variables.

Coeficiente de correlación de Spearman:

Es una medida de rango que mide la dependencia estadística del rango entre dos variables. Mide la fuerza y la dirección de la asociación entre dos variables. Para calcular el coeficiente hay que ordenar las variables.

Coeficiente de determinación R²:

Este coeficiente evalúa la fuerza de la relación lineal entre dos variables y es muy utilizado para llevar a cabo análisis de tendencias.

Correlación:

Medida de relación entre dos variables en el que su valor está comprendido entre -1 y +1. Es negativo si en la medida que crece una variable, decrece la otra; y es positivo, si las dos variables crecen en la misma posición. Si el coeficiente es 0, no existe correlación alguna.

Cuantil:

Es una medida de distribución que divide la posición de los valores en cuatro partes iguales, resultando tres cuartiles, donde el valor medio (percentil) es el valor equivalente a la mediana.

Cuartil:

Son los puntos de una distribución que se relacionan con el orden que ocupan en una distribución. Para calcular los cuartiles, se ordenan los datos de menor a mayor, resultando el 1 primer cuartil con sus datos en el primer tramo del 25% que quedará por debajo del 75% de los datos. El cuartil 2 equivale a la mediana o al 50% de los datos y el tercer cuartil, ocupa la posición donde se encuentra el 75% de los datos.

Curtosis:

Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la distribución y según sea esta, la forma de su curva estará más o menos apuntada. Una curtosis grande implica que una gran cantidad de valores están alejados del centro. Podemos distinguir tres clases de curtosis:

Leptocúrtica si los valores están muy agrupados en el centro del gráfico

Mesocúrtica cuando la concentración es moderada alrededor de los valores centrales

Platicúrtica cuando la forma del gráfico es ancha y sus valores tienden a estar dispersos en el eje de las x.

Curva de distribución normal:

Tiene la forma de una campana (campana de Gaus), resultando simétrica y siendo en su zona central de forma cóncava. Los valores más frecuentes, aparecen por tanto en el vértice de la campana, y con menos frecuencia en sus extremos esparciéndose muy cercana al eje de las x.

Decil:

Es el valor que divide al conjunto total de las observaciones en diez partes iguales.

Densidad:

La densidad de una variable aleatoria continua describe la probabilidad relativa, según la cual, dicha variable aleatoria, tomará un determinado valor.

Desviación típica:

Valor igual o mayor a 0 que mide la dispersión alrededor de la media de sus valores. Los valores serán más homogéneos o parecidos entre sí cuanto más se aproxime a 0 el resultado de la desviación típica. La desviación típica es igual a la raíz cuadrada de la varianza y se calcula aplicando la ecuación v² = ∑ (del valor de cada observación menos la media aritmética)² y dividido entre el número de observaciones. Calculamos su raíz cuadrada y obtenemos la desviación típica.

Estadística:

Es la ciencia que comprende una serie de métodos y procedimientos destinados a la recopilación, tabulación, procesamiento, análisis e interpretación de datos cualitativos y cuantitativos. Sus técnicas permitir resumir grandes cantidades de información, estudiar la relación entre variables, investigar las causas de muchos sucesos y predecir algunos fenómenos en el tiempo y en el espacio.

Como tema a desarrollar: La estadística es una ciencia que se ocupa de la obtención, análisis y descripción de los datos para comprender y predecir fenómenos de interés. La estadística utiliza herramientas matemáticas y de probabilidad para desarrollar métodos y modelos que permiten extraer conclusiones relevantes de los datos. La estadística se aplica en diversas áreas de las ciencias naturales y sociales, la economía, la industria, el deporte, entre otras.

La estadística se puede dividir en dos grandes ramas: la estadística descriptiva y la estadística inferencial. La estadística descriptiva se encarga de resumir y presentar los datos mediante indicadores, gráficos y tablas. La estadística inferencial se encarga de generalizar y predecir a partir de los datos, teniendo en cuenta el grado de incertidumbre. La estadística inferencial se puede subdividir a su vez en estadística paramétrica y no paramétrica, según se asuman o no determinadas distribuciones o parámetros en los datos.

Estadística Inferencial:

Es una rama de la Estadística que se enfoca en hacer conclusiones y generalizaciones sobre una población a partir de una muestra obtenida de la misma. Su papel es interpretar, hacer proyecciones y comparaciones. Usa mecanismos de aproximación como intervalos de confianza, pruebas de hipótesis, pruebas de correlación, test como el ji², etc. Es una ciencia de aproximación, aunque no exacta.

Estimador:

Valor numérico extraído de las observaciones de una muestra que se aproxima en mayor o menor medida al parámetro de la población sobre el que se quiere investigar. Así, la edad media de una población de un grupo de individuos es un estimador de la edad media de una población.

Frecuencia:

En estadística, la frecuencia en un evento es el número de veces que se repite dicho evento durante un determinado experimento. Las diferentes clases de frecuencia son:

Absoluta: número de veces que se repite cada valor

Relativa: frecuencia absoluta dividido entre el número de observaciones

Absoluta acumulada: suma de las frecuencias absolutas de forma acumulativa

Relativa acumulada: suma acumulativa de las frecuencias relativas

Porcentaje: valor de la frecuencia relativa * 100

Porcentaje acumulado: suma acumulativa de los porcentajes relativos

Gráfico de Caja y Bigotes:

Gráfico que muestra la distribución de los datos en cuartiles, resaltando la mediana y los valores atípicos. Los cuartiles dividen los datos ordenados en cuatro partes iguales. La caja representa el rango intercuartílico (diferencia entre el primer y el tercer cuartil). Los bigotes son las líneas que se extienden hasta el valor mínimo y máximo. Los valores que se encuentran ya fuera de esas líneas o bigotes, son los atípicos. El primer cuartil abarca el 25% de los datos ordenados, la mediana el 50% y el tercer cuartil el 75%.

Gráfico de tallo y hoja:

Es una representación que muestra todos los valores de la variable, de manera ordenada en un esquema que destaca separadamente las cifras que forman la parte del tallo de las que forman parte de la hoja. Los números se dividen en dos columnas:

Tallo: uno o más dígitos principales, es el primer dígito de cada valor que comprende a las decenas. La columna se sitúa en la parte izquierda.

Hoja: son las unidades y la columna se sitúa a la derecha.

14, 18, 24, 27, 35, 39, 40, 42, 44, 46

1 | 4,8

2 | 4,7

3 | 5, 9

4 | 0, 2, 4, 6

Hipótesis nula:

Suposición que se utiliza para confirmar o negar un suceso. Siempre que queramos llegar a una conclusión sobre un suceso, tenemos que plantear dos hipótesis: la nula y la alternativa. La nula es la hipótesis que pretendemos rechazar pero si tenemos evidencias suficientes para rechazarla, entonces confirmamos la hipótesis alternativa.

Hipótesis alternativa:

Hipótesis opuesta a la nula, o test o contraste de hipótesis.

Histograma de frecuencias:

Representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcionar a la frecuencia de los valores representados. Es un gráfico acumulativo. Son rectángulos proporcionales al valor de la variable representada. Herramienta muy útil para analizar y entender la distribución de los datos, como puede ser la asimetría, valores atípicos, etc.

Índice:

Es una medida estadística que permite estudiar las fluctuaciones o variaciones de una o más magnitudes en relación con el tiempo o espacio. Se pude decir que los números índice son en realidad series temporales.

Índice, cálculo del:

Tomando el año x sobre y = I : (Y/X) * 100

Índice de covariación:

El índice de covariación en estadística indica el grado de variación conjunta de dos variables aleatorias con respecto a sus medidas. Es un dato básico para determinar si existe una dependencia entre ambas variables y otros parámetros básicos como es el coeficiente de correlación lineal.

Índice, números:

(Ver índice).

Inferencia estadística:

Procedimiento que permite extrapolar o generalizar a la población los resultados obtenidos en el análisis de una muestra. Las técnicas utilizadas para ello incluyen los intervalos de confianza y los test de hipótesis.

Intervalo de confianza:

Rango de valores que, con una cierta confianza, contiene el parámetro poblacional que se pretende conocer. El intervalo de confianza se construye a partir de la información de la muestra y es una de las herramientas utilizadas para extrapolar resultados a la población.

ji²:

Se utiliza para probar si dos variables pueden (o no) estar relacionadas. Equivale a la raíz cuadrada de la varianza. La fórmula es:

Media aritmética:

Es una medida de tendencia central que nos da el promedio de un conjunto de datos. Se calcula sumando todos los datos y dividiéndolos por el número de observaciones.

Media ponderada:

Es una medida de tendencia central que otorga diferentes pesos a los distintos valores sobre los que se calcula. Se diferencia de la media aritmética en que no le otorga el mismo valor ni la misma importancia a todos los valores.

Mediana:

Es el punto medio de un conjunto de datos, donde el 50% de los datos están por encima de la media y el otro 50% están por debajo de esa media. Los datos deberán de estar ordenados de menor a mayor o viceversa. Su uso no tiene sentido en variables cualitativas o nominales. Cuando las posiciones son impares, la mediana se sitúa en el valor central (1,2,3 = 2) y cuando las observaciones son pares, la mediana se sitúa en la media aritmética de los dos valores centrales (1,2,3,4 = (4+1) / 2 = 2,5).

Medidas de dispersión:

Se basan en medir la desviación o diferencia de cada valor individual con respecto a la media; nos dice cuánto difieren del valor promedio de los valores de una distribución y nos dan una idea de la dispersión de los casos con respecto al valor central. Entre las medidas de dispersión se encuentran: el rango, desviación estándar o típica (= a la raíz cuadrada de la varianza que la obtenemos de las diferencias al cuadrado entre cada dato dado y su media aritmética).

Moda:

Es el valor que más se repite en un conjunto de datos y es una de las medidas centrales de un conjunto de datos. Puede no existir.

Muestra:

Grupo de individuos extraídos aleatoriamente de la población de estudio. Una muestra es un subconjunto de casos o individuos de una población. La muestra es una parte representativa de la población. Como un subconjunto o subgrupo representativo de la población extraída o seleccionado por algún método de muestreo, la muestra siempre es una parte de la población. Si se tienen varias poblaciones, entonces se tienen varias muestras.

Muestreo:

Conjunto de técnicas estadísticas que implican el análisis y la obtención de conclusiones acerca de un determinado tema de un subgrupo pequeño de elementos (muestra) para extrapolarlos o inferirlos a todo el conjunto de elementos de interés de la población.

Nivel de confianza:

Probabilidad de que el intervalo de confianza obtenido a partir de los datos de la muestra contenga el parámetro de la población que se pretende analizar. Puede tomar un valor entre 0 y 1, aunque el más usual es el 0,05 0 95% de confianza.

Nivel de significación:

Se define como la probabilidad de rechazar la hipótesis nula. Cuanto más pequeño es el error, mayor será el tamaño de la muestra y por tanto, más precisos serán los resultados.

Percentil:

Es una variable estadística de posición que divide la posición ordenada de los datos en 100 partes iguales.

Población:

El conjunto de individuos sobre el que se desea realizar una investigación o estudio. Si se refiere a todos los individuos, se habla de censo; si el estudio se hace solamente de una parte de la población, se habla de muestra aleatoria. Una población puede referirse a personas, ciudades, hogares, condados, escuelas, hospitales, etc.

Probabilidad:

Medida que cuantifica la ocurrencia de fenómenos ocurridos al azar. Sus valores están comprendidos entre 0 y +1. Cuando el resultado es 0, no ocurrirá nunca.

Rango o recorrido de una variable:

Es la diferencia entre el dato mayor y el menor de la variable. El rango indica la longitud del intervalo en el que se hallan todos los datos de la distribución.

Regresión:

Técnica estadística que permite determinar la ecuación matemática que relaciona una variable dependiente (respuesta) con una o varias causas (variable independiente). Podemos encontrar dos variantes:

- La regresión lineal múltiple, que se da cuando se manejan múltiples variables independientes que influyen (o no) en la variable dependiente y,

- La regresión lineal simple que se da cuando tenemos una sola variable independiente para realizar una predicción sobre una variable dependiente.

Residual de una regresión:

Los valores residuales de una regresión son la diferencia entre los valores dados y los valores estimados o esperados. Se pueden usar para calcular el error en una ecuación de regresión o para evaluar distintas suposiciones. Un modelo de mínimos cuadrados minimiza la suma de los residuos al cuadrado.

Serie temporal:

Variable cuyo valor va cambiando a lo largo del tiempo. Es una sucesión de datos medidos en momentos específicos y ordenados cronológicamente.

Serie temporal, análisis:

Estudio de una variable que va cambiando a través del tiempo como pueden ser las ventas de una empresa. Se mide la tendencia, variaciones periódicas, componentes estacionales o componentes erráticos debidos a una huelga, catástrofes naturales o pandemias.

Tabla de contingencia:

Tabla de al menos dos filas y dos columnas para representar datos categóricos en términos de conteo de frecuencia o porcentajes. Se utilizan para analizar la relación entre dos variables y cálculo de probabilidades.

Tamaño de una muestra:

Número de sujetos necesarios para llevar a cabo una investigación, de manera que los resultados obtenidos se aproximan a los que se tendrían al estudiar toda la población. El tamaño de una muestra será mayor cuanto más deseemos que el error sea menor.

Test de hipótesis:

Técnica estadística utilizada para decidir si una afirmación establecida por el investigador sobre la población de estudio es compatible con los resultados observados en una muestra. Se compone de una hipótesis nula, formulada en términos de igualdad o negación y una hipótesis alternativa.

Test de significación estadística:

La prueba de hipótesis o prueba de significación es un procedimiento para juzgar si una propiedad que se supone en una población estadística es compatible con lo observado en una muestra de dicha población.

Universo:

El universo en estadística lo componen todos los individuos de una población sobre los cuales se puede llevar a cabo un estudio estadístico, mientras que la muestra, es el conjunto de individuos sobre los que realmente se realiza dicho estudio.

Valor “P”:

Es la evidencia contra una hipótesis nula. Cuanto menor es el valor “p” más fuerte es la evidencia de que existe una relación estadísticamente significativa entre las variables de un estudio. El valor “p” se expresa en decimales (0,05 = 95%), valor con el que la hipótesis nula se puede rechazar.

Valor residual en el análisis de regresión:

Es la diferencia entre el valor dado y el valor esperado calculados con la ecucación de regresión. Este valor se puede usar para calcular el error en una ecuación de regresión y otros supuestos. Un modelo de mínimos cuadrados minimiza la suma de los residuos al cuadrado.

Variabilidad, medidas de:

Las medidas de dispersión -variabilidad o propagación-, es el grado en que una distribución se estira o se comprime. Las medidas más conocidas son: varianza, desviación estándar y el rango Intercuartil. Cuanto mayor sea el coeficiente de variación, mayor será la dispersión de los datos.

Variable:

Característica de la población de la muestra. El valor de la variable puede “variar” de un sujeto a otro. Según su naturaleza, las variables pueden ser cualitativas (sexo) o cuantitativas (edad).

Variable cualitativa:

Son las variables ordinales y nominales que son categóricas o cualitativas. No admiten varios principios clasificatorios (o macho o hembra).

Variable cuantitativa continua:

Son las variables que se miden y se expresan en números enteros o en decimales.

Discreta cuando no puede tener un valor entre dos valores consecutivos (cinco hijos o seis hijos, pero no 5,5 hijos), y

Continua cuando puede asumir un número incontable de valores (densidad de una pieza, velocidad a la que viaja un tren, Kgs de aceituna de una cosecha).

Variable ordinal:

Categórica o cualitativa (expresa categorías), como puede ser la nota que se pone o se valora un servicio (de 0 a 10).

Variable nominal:

Clasificación intrínseca como: Distrito Postal, confesión religiosa. Asume valores sin importar el orden, raza o género. Puede ser dicotónica: “sí-no, presente-ausente”.

Variables, principales escalas de medida de las:

Escala nominal: variables cualitativas que no implican orden o jerarquía

Escala ordinal: se pueden ordenar o clasificar

Escala de intervalo: permiten medir puntos de intervalos entre los diferentes valores

Escala de razón: escala parecida a la de intervalo, pero partiendo de “0”.

Variación estacional de una serie temporal:

Decimos que una serie temporal es estacional cuando los fenómenos que ocurren en el tiempo se repiten en periodos idénticos, a una hora determinada, un día, mes o año. El índice de variación se calcula promediando los valores de cada mes y dividiendo entre la serie original y la serie de medias móviles.

Variaciones accidentales:

Movimientos irregulares de las series temporales debidas a sucesos ocasionales como pueden ser las huelgas, inundaciones, terremotos, pandemias, etc.

Varianza:

Es una medida usada en estadística para determinar la variación existente entre dos o más muestras (variables).

Medida de dispersión que representa la variabilidad de una serie de datos con respecto a su media.

Los residuos son los valores resultantes de restar los datos dados de una variable al cuadrado y el valor medio de la suma de los datos de esa variable.

Se calcula como la suma de los residuos al cuadrado dividido entre el total de las observaciones.

La varianza es siempre = o mayor a 0, ya que, al elevar las diferencias al cuadrado, el resultado nunca puede salir negativo. La varianza es pues, igual a la desviación típica elevada al cuadrado.

Historias de la Historia

domingo, 14 de enero de 2024

Estadística para historiadores

No hay comentarios:

Publicar un comentario