Estadística: noviembre 2015

MEDIDAS DE TENDENCIA CENTRAL

Moda

La moda es el valor que tiene mayor frecuencia absoluta.

Se representa por M_o_.

Se puede hallar la moda para variables cualitativas y cuantitativas.

Hallar la moda de la distribución:

2, 3, 3, 4, 4, 4, 5, 5 M_o= 4

Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.

1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9M_o= 1, 5, 9

Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda.

2, 2, 3, 3, 6, 6, 9, 9

Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el promedio de las dos puntuaciones adyacentes.

0, 1, 3, 3, 5, 5, 7, 8Mo = 4

Cálculo de la moda para datos agrupados

1º Todos los intervalos tienen la misma amplitud.

L_i es el límite inferior de la clase modal.

f_i es la frecuencia absoluta de la clase modal.

f_i--1 es la frecuencia absoluta inmediatamente inferior a la en clase modal.

f_i-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.

a_i es la amplitud de la clase.

También se utiliza otra fórmula de la moda que da un valor aproximado de ésta:

Ejemplo

Calcular la moda de una distribución estadística que viene dada por la siguiente tabla:

	f_i
[60, 63)	5
[63, 66)	18
[66, 69)	42
[69, 72)	27
[72, 75)	8
	100

2º Los intervalos tienen amplitudes distintas.

En primer lugar tenemos que hallar las alturas.

La clase modal es la que tiene mayor altura.

La fórmula de la moda aproximada cuando existen distintas amplitudes es:

Ejemplo

En la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y sobresaliente) obtenidas por un grupo de 50 alumnos. Calcular la moda.

	f_i	h_i
[0, 5)	15	3
[5, 7)	20	10
[7, 9)	12	6
[9, 10)	3	3
	50

Mediana

Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

La mediana se representa por M_e_.

La mediana se puede hallar sólo para variables cuantitativas.

Cálculo de la mediana

1 Ordenamos los datos de menor a mayor.

2 Si la serie tiene un número impar de medidas la mediana es la puntuación central de la misma.

2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5

3 Si la serie tiene un número par de puntuaciones la mediana es la media entre las dospuntuaciones centrales.

7, 8, 9, 10, 11, 12Me= 9.5

Cálculo de la mediana para datos agrupados

La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta lamitad de la suma de las frecuencias absolutas.

Es decir tenemos que buscar el intervalo en el que se encuentre cociente

L_i es el límite inferior de la clase donde se encuentra la mediana.

es la semisuma de las frecuencias absolutas.

F_i-1 es la frecuencia acumulada anterior a la clase mediana.

a_i es la amplitud de la clase.

La mediana es independiente de las amplitudes de los intervalos.

Ejemplo

Calcular la mediana de una distribución estadística que viene dada por la siguiente tabla:

	f_i	F_i
[60, 63)	5	5
[63, 66)	18	23
[66, 69)	42	65
[69, 72)	27	92
[72, 75)	8	100
	100

100 / 2 = 50

Clase modal: [66, 69)

Media aritmética

La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos.

es el símbolo de la media aritmética.

Ejemplo

Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.

Media aritmética para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la media es:

Ejercicio de media aritmética

En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la tabla. Calcula la puntuación media.

	x_i	f_i	x_i · f_i
[10, 20)	15	1	15
[20, 30)	25	8	200
[30,40)	35	10	350
[40, 50)	45	9	405
[50, 60	55	8	440
[60,70)	65	4	260
[70, 80)	75	2	150
		42	1 820

Desviación estándar

La desviación estándar (σ) mide cuánto se separan los datos.

La fórmula es fácil: es la raíz cuadrada de la varianza. Así que, "¿qué es la varianza?"

Varianza

la varianza (que es el cuadrado de la desviación estándar: σ²) se define así:

Es la media de las diferencias con la media elevadas al cuadrado.

En otras palabras, sigue estos pasos:

1. Calcula la media (el promedio de los números)
2. Ahora, por cada número resta la media y eleva el resultado al cuadrado (la diferencia elevada al cuadrado).
3. Ahora calcula la media de esas diferencias al cuadrado. (¿Por qué al cuadrado?)

Ejemplo

Tú y tus amigos habéis medido las alturas de vuestros perros (en milímetros):

Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm.

Calcula la media, la varianza y la desviación estándar.

Respuesta:

Media =	600 + 470 + 170 + 430 + 300	=	1970	= 394

	5		5

así que la altura media es 394 mm. Vamos a dibujar esto en el gráfico:

Ahora calculamos la diferencia de cada altura con la media:

Para calcular la varianza, toma cada diferencia, elévala al cuadrado, y haz la media:

Varianza: σ² =	206² + 76² + (-224)² + 36² + (-94)²	=	108,520	= 21,704

	5		5

Así que la varianza es 21,704.

Y la desviación estándar es la raíz de la varianza, así que:

Desviación estándar: σ = √21,704 = 147

Bibliografía:

http://www.ditutor.com/estadistica/medidas_centralizacion.html

http://www.disfrutalasmatematicas.com/datos/desviacion-estandar.html

TABLAS Y GRÁFICAS ESTADÍTICAS

Diseño para tablas estadísticas

Tablas de serie

X = Variable

∑ = Notación sumatoria

f = Frecuencia

FR = Frecuencia relativa ó porcentual
FR = f/ ∑f
Fa = Frecuencia acumulativa

Ejemplo:

x	Tabulador	f
1	lllll lllll llll	14
2	lllll lllll lllll	15
3	lllll lllll lllll ll	17
4	lllll lll	8
5	lllll lllll lllll	15
6	lllll lllll lllll l	16
∑ 85

x	f	FR	Fa ≤	Fa >	Fa % <	Fa % >
1	14	0.16	14	71	0.16	0.84
2	15	0.18	29	56	0.34	0.66
3	17	0.2	46	39	0.54	0.46
4	8	0.09	54	31	0.63	0.37
5	15	0.18	69	16	0.81	0.19
6	16	0.19	85	0	1	0
∑ 85 1

Tablas de frecuencias o intervalos

1.- ORGANIZACIÓN DE DATOS (DIAGRAMA DE TRONCO).

Dado un conjunto, una forma rápida de obtener una representación visual del conjunto de datos es construir un diagrama de tallos y hojas. Este diagrama es usado cuando hay un número no muy pequeño de datos. Los siguientes son los pasos para construir un diagrama de tallos y hojas:

Seleccionar uno o más dígitos iniciales para los valores de tallo. El dígito(s) final(es) se convierte (n) en hojas. Para facilitar la determinación de la forma de la distribución de los datos se necesitan al menos 5 tallos.

Hacer una lista de valores de tallo en una columna vertical.

Registrar las hojas por cada observación junto al valor correspondiente del tallo.

Indicar las unidades para tallos y hojas en algún lugar del diagrama.

Muchos de los procedimientos estadísticos que se desarrollarán en la siguientes unidades suponen que la variable aleatoria estudiada tiene al menos una distribución aproximadamente normal, para la cual el diagrama de tallos y hojas tiene forma de campana.

Los diagramas de tallos y hojas nos dan una idea de la localización de los datos y de la forma de la distribución. Esta técnica funciona bien para los conjuntos de datos que no tienen una dispersión muy grande.

Ejemplo:

Conjunto de datos:

49, 60, 60, 68, 63, 50, 62, 54, 51, 60, 45, 63, 54, 65, 52, 47, 63, 70, 61, 76, 76, 70, 60, 70, 56, 52, 49, 50, 45, 60, 50, 60, 68, 58, 62, 40, 50, 63, 62, 50.

4 9 7 5 9 5 0

5 4 2 1 6 2 0 4 0 0 8 0 0

6 0 0 0 0 3 8 3 3 1 2 5 0 0 8 2 3 2

7 0 0 0 6 6

4 0 5 5 7 9 9

5 0 0 0 0 0 1 2 2 4 4 6 8

6 0 0 0 0 0 0 1 2 2 2 3 3 3 3 5 8 8

7 0 0 0 6 6

2.- RANGO.

R= Dato mayor–Dato menor

Ejemplo:

R= 76–40

R= 36

3.- NÚMERO DE CATEGORÍAS (REGLA DE STURGES).

m= 1+3.3logN

Ejemplo:

N= 40

m= 1+3.3log40

m= 6.3 ≈ 6

4.- ANCHURA Ó INTERVALO

I= R/m

Ejemplo:

I= 36/6

I= 6 ≈ 7

5.- NUEVO RANGO

NR= I m

NR= 7 (6)

NR= 42

6.- EXCEDENTE

NR-R

42-36= 6

Nuevo dato mayor= 79

Nuevo dato menor= 37

Tablas de intervalos

LICR = LI + LSCA/2

LSCR = LS + LICP/2

X - Marca de clase

X = LI + LS/2

C= LSCR- LICR

Intervalos LI-LS	Intervalos de clase LI-LS	Intervalos de clase real LICR-LSCR	f	X	C	FR	Fa <	Fa>	Fa % <	Fa % >
37-44	37-43	36.5-43.5	1	40	7	2.5	1	39	0.025	0.975
44-51	44-50	43.5-50.5	10	47	7	25	11	29	0.275	0.725
51-58	51-57	50.5-57.5	6	54	7	15	17	23	0.425	0.575
58-65	58-64	57.5-64.5	15	61	7	37.5	32	8	0.8	0.2
65-72	65-71	64.5-71.5	6	68	7	15	38	2	0.95	0.05
72-79	72-78	71.5-78.5	2	75	7	5	40	0	1	0
∑ 40 100

GRÁFICOS PARA VARIABLES CUALITATIVAS

Los gráficos más usuales para representar variables de tipo nominal son los siguientes:

Diagramas de barras:

Siguiendo la figura 1, representamos en el eje de ordenadas las modalidades y en abscisas las frecuencias absolutas o bien, las frecuencias relativas. Si, mediante el gráfico, se intenta comparar varias poblaciones entre sí, existen otras modalidades, como las mostradas en la figura 2 Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrían resultar engañosas.

Figura 1: Diagrama de barras para una variable cualitativa.

$\includegraphics[angle=0, width=0.5\textwidth]{fig01-01.eps}$

Figura 2: Diagramas de barras para comparar una variable cualitativa en diferentes poblaciones. Se ha de tener en cuenta que la altura de cada barra es proporcional al número de observaciones (frecuencias relativas).

$\includegraphics[angle=-90, width=0.5\textwidth]{fig01-02.eps}$

Diagramas de sectores

(también llamados pastel). Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa (figura 3).

Figura 3: Diagrama de sectores.

$\includegraphics[angle=-90, width=0.6\textwidth]{fig01-03.epsi}$

El arco de cada porción se calcula usando la regla de tres:

$\begin{eqnarray}\html{eqn1}n & \longrightarrow & 360^{\circ} \nonumber \\ n_i & \longrightarrow &x_i = \frac{360 \cdot n_i}{n} \nonumber \end{eqnarray}$

Como en la situación anterior, puede interesar comparar dos poblaciones. En este caso también es aconsejable el uso de las frecuencias relativas (porcentajes) de ambas sobre gráficos como los anteriores. Otra posibilidad es comparar las 2 poblaciones usando para cada una de ellas un diagrama semicircular, al igual que en la figura 4. Sean $n_1 \leq n_2$ los tamaños respectivos de las 2 poblaciones. La población más pequeña se representa con un semicírculo de radio r₁y la mayor con otro de radio r₂. La relación existente entre los radios, es la que se obtiene de suponer que la relación entre las areas de las circunferencias es igual a la de los tamaños de las poblaciones respectivas, es decir:

Figura 4: Diagrama de sectores para comparar dos poblaciones

$\includegraphics[angle=-90, width=0.6\textwidth]{fig01-04.epsi}$

Gráficos para variables cuantitativas

Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias acumuladas:

Diagramas diferenciales:

Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el número o porcentaje de elementos que presenta una modalidad dada.

Diagramas integrales:

Son aquellos en los que se representan el número de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas.

Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a continuación las diferentes representaciones gráficas que pueden realizarse para cada una de ellas así como los nombres específicos que reciben.

Gráficos para variables discretas

Cuando representamos una variable discreta, usamos el diagrama de barras cuando pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas para representar el que los valores que toma la variable son discretos. El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de escalera. Un ejemplo de diagrama de barras así como su diagrama integral correspondiente están representados en la figura 1.

Ejemplo

Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras, X, obteniendose los siguientes resultados:

$\begin{displaymath}X{\leadsto}\, 2,1,0,1,3,2,1,2 \end{displaymath}$

Representar gráficamente el resultado.

Solución: En primer lugar observamos que la variable X es cuantitativa discreta, presentando las modalidades:

$\begin{displaymath}X\in{0,1,2,3} \end{displaymath}$

Ordenamos a continuación los datos en una tabla estadística, y se representa la misma en la figura 1.

Figura: Diagrama diferencial (barras) e integral para una variable discreta. Obsérvese que el diagrama integral (creciente) contabiliza el número de observaciones de la variable inferiores o iguales a cada punto del eje de abcisas.

$\includegraphics[angle=0, width=0.8\textwidth]{fig01-06.eps}$

x_i	n_i	f_i	N_i	F_i
0	1	1/8	1	1/8
1	3	3/8	4	4/8
2	3	3/8	7	7/8
3	1	1/8	8	8/8
	n=8	1

Ejemplo

Clasificadas 12 familias por su número de hijos se obtuvo:

Número de hijos (x_i)	1	2	3	4
Frecuencias (n_i)	1	3	5	3

Comparar los diagramas de barras para frecuencias absolutas y relativas. Realizar el diagrama acumulativo creciente.

Solución: En primer lugar, escribimos la tabla de frecuencias en el modo habitual:

Variable	F. Absolutas	F. Relativas	F. Acumuladas
x_i	n_i	f_i	N_i
1	1	0,083	1
2	3	0,250	4
3	5	0,416	9
4	3	0,250	12
	12	1

Con las columnas relativas a x_i y n_i realizamos el diagrama de barras para frecuencias absolutas, lo que se muestra en la figura 1.7. Como puede verse es idéntico (salvo un cambio de escala en el eje de ordenadas) al diagrama de barras para frecuencias relativas y que ha sido calculado usando las columnas de x_i y f_i. El diagrama escalonado (acumulado) se ha construido con la información procedente de las columnas x_i y N_i.

Figura: Diagramas de frecuencias para una variable discreta

$\includegraphics[angle=0, width=0.8\textwidth]{fig01-07.eps}$

Gráficos para variables continuas

Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polígonos de frecuencias.

Un histograma se construye a partir de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.

El polígono de frecuencias se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante lineas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase. Obsérvese que de este modo, el polígono de frecuencias tiene en común con el histograma el que las áreas de la gráficas sobre un intervalo son idénticas. Véanse ambas gráficas diferenciales representadas en la parte superior de la figura 2.

El diagrama integral para una variable continua se denomina también polígono de frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de otro modo, el polígono de frecuencias absolutas es una primitiva del histograma. Véase la parte inferior de la figura 2, en la que se representa a modo de ilustración los diagramas correspondientes a la variable cuantitativa continua expresada en la tabla siguiente:

Intervalos	c_i	n_i	N_i
0 -- 2	1	2	2
2 -- 4	3	1	3
4 -- 6	5	4	7
6 -- 8	7	3	10
8 - 10	9	2	12
		12

Figura 2 : Diagramas diferenciales e integrales para una variable continua.

$\includegraphics[angle=0, width=0.5\textwidth]{fig01-08.epsi}$

Ejemplo

La siguiente distribución se refiere a la duración en horas (completas) de un lote de 500 tubos:

Duración en horas	Número de tubos
300 -- 500	50
500 -- 700	150
700 -- 1.100	275
más de 1.100	25
	Total 500

Representar el histograma de frecuencias relativas y el polígono de frecuencias.
Trazar la curva de frecuencias relativas acumuladas.
Determinar el número mínimo de tubos que tienen una duración inferior a 900 horas.

Solución: En primer lugar observamos que la variable en estudio es discreta (horas completas), pero al tener un rango tan amplio de valores resulta más conveniente agruparla en intervalos, como si de una variable continua se tratase. La consecuencia es una ligera perdida de precisión.

El último intervalo está abierto por el límite superior. Dado que en él hay 25 observaciones puede ser conveniente cerrarlo con una amplitud ``razonable''. Todos los intervalos excepto el tercero tienen una amplitud de 200 horas, luego podríamos cerrar el último intervalo en 1.300 horas^1.2.

Antes de realizar el histograma conviene hacer una observación importante. El histograma representa las frecuencias de los intervalos medianteáreas y no mediante alturas. Sin embargo nos es mucho más fácil hacer representaciones gráficas teniendo en cuenta estas últimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los conceptos de área y altura, pero en este caso el tercer intervalo tiene una amplitud doble a los demás, y por tanto hay que repartir su área en un rectángulo de base doble (lo que reduce su áltura a la mitad).

Así será conveniente añadir a la habitual tabla de frecuencias una columna que represente a las amplitudes a_i de cada intervalo, y otra de frecuencias relativas rectificadas, f_i', para representar la altura del histograma. Los gráficos requeridos se representan en las figuras 3 y 4.

Intervalos	a_i	n_i	f_i	f_i'	F_i
300 -- 500	200	50	0,10	0,10	0,10
500 -- 700	200	150	0,30	0,30	0,40
700 -- 1.100	400	275	0,55	0,275	0,95
1.100 -- 1.300	200	25	0,05	0,05	1,00
		n=500

Figura 3: Histograma. Obsérvese que la altura del histograma en cada intervalo es f_i' que coincide en todos con f_isalvo en el intervalo 700 -- 1.100 en el que $f_i{\mbox{$'$ }}= 1/2\, f_i$ ya que la amplitud de ese intervalo es doble a la de los demás.

$\includegraphics[angle=0, width=0.7\textwidth]{fig01-09.eps}$

Figura 4: Diagrama acumulativo de frecuencias relativas

$\includegraphics[angle=0, width=0.8\textwidth]{fig01-10.eps}$

Por otro lado, mirando la figura 2 se ve que sumando frecuencias relativas, hasta las 900 horas de duración hay

0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos.

Esta cantidad se obtiene de modo más directo viendo a qué altura corresponde al valor 900 en el diagrama de frecuencias acumuladas (figura 4).

Como en total son 500 tubos, el número de tubos con una duración igual o menor que 900 horas es $0,675 \times 500= 337,5$ , redondeando, 338 tubos.

BIBLIOGRAFÍA

Información escolar

http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_113_13.html

http://matematicas.reduaz.mx/home/Docentes/ltrueba/diplomado/pagina9.htm

Estadística

domingo, 8 de noviembre de 2015

Medidas de Tendencia Central

Moda

La moda es el valor que tiene mayor frecuencia absoluta.

Se representa por M_o_.

Se puede hallar la moda para variables cualitativas y cuantitativas.

Hallar la moda de la distribución:

Cálculo de la moda para datos agrupados

1º Todos los intervalos tienen la misma amplitud.

Ejemplo

2º Los intervalos tienen amplitudes distintas.

Ejemplo

Mediana

Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

La mediana se representa por M_e_.

La mediana se puede hallar sólo para variables cuantitativas.

Cálculo de la mediana

Cálculo de la mediana para datos agrupados

Ejemplo

Media aritmética

La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos.

es el símbolo de la media aritmética.

Ejemplo

Media aritmética para datos agrupados

Ejercicio de media aritmética

Desviación estándar

Varianza

Ejemplo

Respuesta:

martes, 3 de noviembre de 2015

Construcción de tablas y gráficas estadísticas

GRÁFICOS PARA VARIABLES CUALITATIVAS

Gráficos para variables cuantitativas

Gráficos para variables discretas

Ejemplo

Gráficos para variables continuas

Ejemplo

domingo, 8 de noviembre de 2015

Medidas de Tendencia Central

Moda

La moda es el valor que tiene mayor frecuencia absoluta.

Se representa por Mo.

Se puede hallar la moda para variables cualitativas y cuantitativas.

Hallar la moda de la distribución:

Cálculo de la moda para datos agrupados

1º Todos los intervalos tienen la misma amplitud.

Ejemplo

2º Los intervalos tienen amplitudes distintas.

Ejemplo

Mediana

Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

La mediana se representa por Me.

La mediana se puede hallar sólo para variables cuantitativas.

Cálculo de la mediana

Cálculo de la mediana para datos agrupados

Ejemplo

Media aritmética

La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos.

es el símbolo de la media aritmética.

Ejemplo

Media aritmética para datos agrupados

Ejercicio de media aritmética

Desviación estándar

Varianza

Ejemplo

Respuesta:

martes, 3 de noviembre de 2015

Construcción de tablas y gráficas estadísticas

GRÁFICOS PARA VARIABLES CUALITATIVAS

Gráficos para variables cuantitativas

Gráficos para variables discretas

Ejemplo

Gráficos para variables continuas

Ejemplo

Se representa por M_o_.

La mediana se representa por M_e_.