Estadística descriptiva

DEFINICIÓN Y CLASIFICACIÓN DE VARIABLES
La estadística descriptiva es la rama de las Matemáticas que recolecta, presenta y caracteriza un conjunto de datos, con el fin de describir apropiadamente las diversas características de ese conjunto.[br][br]A lo largo de nuestra vida, alguna vez escuchamos frase como: "en promedio", "varia entre", "como mínimo", etc. Todas estas frases, hacen referencia a experiencia recolectada a la experiencia y datos adquiridos sobre algo que se desea explicar.[br][br]Veamos un ejemplo.[br][i][br]Con datos de 17 mil 364 personas mayores de 18 años, la Cámara Nacional de la Industria del Vestido encontró que el hombre mexicano promedio pesa 74.8 kilos y mide 1.64 metros, mientras que las mujeres 1.58 metros de altura y 68.7 kilos de peso.[br][br]Por rangos de edad, entre las mujeres de 18 a 25 años el promedio de peso es de 62.9 kilos, y en los hombres, de 70.4 kilos. La altura promedio de las jóvenes es de 1.61 metros y de los hombres jóvenes 1.67 metros.[/i][br]Como observamos en tan solo 2 pequeños párrafos obtuvimos mucha información, estatura y peso promedio de hombres y mujeres, inclusive en un rango de edad.[br][br]Es muy fácil realizar este tipo de conclusiones si contamos con la información adecuada, la cual para saber cuál es, lo más importante es responder ¿qué es lo que quiero saber sobre esos datos?, si no tenemos claro esto podemos tener datos.[br][br][img]https://ugc.kn3.net/i/origin/http://www.chamlaty.com/wp-content/uploads/2012/03/Porque.gif[/img]

Dispersión y tendencias

[justify]Los diagramas de dispersión son una forma de expresar y analizar los datos de dos variables o más variables, y así, posteriormente hacer predicciones basadas en los datos. Al contrario de los histogramas y los diagramas de caja, los de dispersión muestran valores de datos individuales.[/justify]
[size=200]Correlación[/size][br][br][justify]Con los diagramas de dispersión podemos ver cómo se relacionan ambas variables entre sí. Esto es lo que se conoce como correlación. Hay tres tipos de correlación: positiva, negativa y nula (sin correlación).[br][br]El coeficiente de correlación nos describe cómo es la relación existente entre dos variables, en otras palabras, al conocer este número sabemos si la correlación es positiva o negativa y qué tan fuerte o débil es. Toma valores entre -1 y 1.[br][/justify][list][*][b]Correlación positiva:[/b] Ocurre cuando una variable aumenta y la otra también (coeficiente de correlación cercano a 1). Por ejemplo, la altura de una persona y el tamaño de su pie; mientras aumenta la altura, el pie también.[br] [/*][*][b]Correlación negativa:[/b] Es cuando una variable aumenta y la otra disminuye (coeficiente de correlación cercano a -1). El tiempo de estudio y el tiempo que pasas jugando videojuegos, tienen una correlación negativa, ya que cuando tu tiempo de estudio aumenta, no te queda tanto tiempo para jugar videojuegos.[br] [/*][*][b]Sin correlación: [/b]No hay una relación aparente entre las variables (coeficiente de correlación igual a 0). Los puntos en tus videojuegos y tu talla de zapato no parece tener ninguna correlación; mientras una aumenta, la otra no tiene ningún efecto.[/*][/list][size=200]Línea de tendencia[br][/size][justify][br]Usamos la "línea de tendencia" para hacer predicciones basándonos en datos pasados. Hay muchas y muy complicadas fórmulas para encontrar esta recta, pero por ahora solo la dibujaremos a través de los puntos en la gráfica para que se [i]ajuste[/i] a la tendencia que nos marcan los datos. Cuando dibujes la recta, asegúrate de que encaje con la mayor parte de los datos. Si hay un punto que está muy por encima o muy por debajo con respecto al resto (los atípicos) es preferible dejarlos fuera de la recta.[/justify]
Manos a la obra:
[justify]A continuación se presentan dos variables que sirven como ejemplo de como funcionan los diagramas de dispersión.[br][br]Modifica los puntos arrastrándolos con el mouse para observar como se altera la linea de tendencia, hazlo hasta alcanzar una tendencia positiva.[/justify]

Distribución normal

[justify][/justify][justify]La distribución de probabilidad conocida como distribución normal es, por la cantidad de fenómenos que explica, la más importante de las distribuciones estadísticas. Es un modelo matemático que permite determinar probabilidades de ocurrencia para distintos valores de la variable. Así, para determinar la probabilidad de encontrar un valor de la variable que sea igual o inferior a un cierto valor. [br][br]La gráfica de la distribución normal tiene la forma de una campana, por este motivo también es conocida como la campana de Gauss. Sus características son las siguientes:[br][/justify][list][*]Es una distribución simétrica.[br][/*][*]Es asintótica, es decir sus extremos nunca tocan el eje horizontal, cuyos valores tienden a infinito.[/*][*]En el centro de la curva se encuentran la media, la mediana y la moda.[/*][*]El área total bajo la curva representa el 100% de los casos.[/*][*]Los elementos centrales del modelo son la media ([math]\mu[/math]) y la desviación estándar ([math]\sigma[/math]).[/*][/list]
[size=200]La distribución normal estándar[br][/size][br][justify]Cabe aclarar que no existe una sola distribución de probabilidad normal, sino una “familia” de ellas. Como sabemos, cada una de las distribuciones puede tener una media (µ) o una desviación estándar distinta (σ). Por tanto, el número de distribuciones normales es ilimitado y sería imposible proporcionar una tabla de probabilidades para cada combinación de µ y σ. Para resolver este problema, se utiliza un solo “miembro” de la familia de distribuciones normales, aquella cuya media es 0 y desviación estándar 1 que es la que se conoce como distribución estándar normal, de forma que todas las distribuciones normales pueden convertirse a la estándar, restando la media de cada observación y dividiendo por la desviación estándar.[/justify]
Manos a la obra:
Explora la construcción mostrada a continuación modificando los valores de la media y la desviación estándar, reflexiona la razón lógica detrás del comportamiento de la gráfica en base al valor de estos parámetros. [br][br]NOTA: En el gráfico, el área sombreada corresponde a la probabilidad de encontrar un valor de la variable que sea igual o inferior a un valor dado. Esa probabilidad es la que acota y determina tanto el punto A como el punto B.

Aprendamos de los datos

Realiza el siguiente ejercicio.
Recolecta los siguientes datos de la clase:[br][br][list=1][*]Edad[/*][*]Peso[/*][/list][br]Ambos datos redondealos a centímetros y a kilogramos.[br]En el applet de GeoGebra que se muestra abajo, captura en la columna A la edad y en la B los datos del peso y observa los estadísticos que muestra, toma un print pant de tu pantalla con lo que hayas obtenido, recuerda, solo necesitas 15 personas.
Copia los datos capturados en la parte superior y pegalos abajo para que se genere la recta de regresión con la applet de GeoGebra.

Reflexionemos...

¿Todo lo que aprendimos hoy es suficiente?
La respuesta correcta como ya notaste es No. Estas herramientas estadísticas descriptivas, solo nos ayudan a observar cierta parte de los datos, pero podemos tener comportamientos como el siguiente:[br][br][img][/img][br]Comportamiento de los datos Bimodal, el en el cual el valor de la media se aleja de ser el valor más probable de ocurrir, habiendo dos valores con mayor ocurrencia.[br][br]Dentro de tus datos recolectados, plantemos las siguientes preguntas:
¿Que tipo de variables son la edad y el peso?[br]
¿Las estatura y el peso tuvieron una correlación alta?[br]
¿a que crees que se atribuya?[br]
¿Los datos obtenidos dentro de tu clase, son representan a la estatura promedio del país, de la escuela o de tu colonia?
¿Porqué es importante obtener estos datos iniciales para cualquier análisis?[br]
¿Crees que te ayudaría saber más teoría de probabilidad para poder identificar comportamientos como el de la distribución Normal?
Debatamos en clase y veamos a que conclusiones podemos llegar con lo visto en este libro.

Information