Box-plot spiegazione

[br]I diagrammi [i][b]boxplot [/b][/i]([b]scatola-e-baffi[/b]), sono stati presentati in modo organico per la prima volta da John W. Tukey nel suo testo del 1977. Sono un metodo grafico diffuso recentemente e reso di uso corrente dai programmi informatici, che possono costruirlo con rapidità.[br][br]Servono per rappresentare visivamente [b]quattro caratteristiche fondamentali [/b]di una [b]distribuzione statistica [/b]di dati campionari:[br][list][*]la misura di [b]tendenza centrale[/b], attraverso la[b] mediana[/b];[/*][*]il grado di [b]dispersione [/b]o variabilità dei dati, rispetto alla mediana;[br][/*][*][b]la forma della distribuzione [/b]dei dati, in particolare la [b]simmetria[/b][/*][*]sia la semplice presenza che l'individuazione specifica di ogni [b]valore anomalo[/b].[br][/*][/list]
[br]La sua realizzazione richiede una serie di passaggi:[br][list][*]Ha origine da una [b]linea orizzontale[/b], interna alla scatola, che rappresenta la[b] mediana[/b].[/*][/list][list][*]La [b]scatola (box)[/b] è delimitata da due linee orizzontali:[/*][/list]    la linea inferiore, indicata con [b]Q1[/b], che rappresenta il [b]primo quartile;[/b][br]   la linea superiore, indicata con [b]Q3[/b], che rappresenta il [b]terzo quartile.[/b][br][list][*]La [b]distanza tra il terzo (Q3) e il primo quartile (Q1[/b]), detta [b]distanza interquartilica[/b], è una misura della dispersione della distribuzione. E’ utile soprattutto quando sono presenti valori anomali, poiché[br]tra il primo e il terzo quartile tra il primo e il terzo quartile [b](Q3 - Q1[/b]) per costruzione sono[b] compresi il 50% delle osservazioni[/b] [b]collocate intorno al valore centrale[/b]. Un intervallo interquartilico piccolo indica che la metà delle osservazioni ha valori molto vicini alla mediana. L’intervallo aumenta al crescere della dispersione (varianza) dei dati. Inoltre, esso fornisce informazioni anche sulla forma della distribuzione (soprattutto sulla simmetria):[/*][/list][list][*]Le[b] linee che si allungano dai bordi della scatola[/b] e che si concludono con altre [b]due linee orizzontali, i baffi (valori adiacenti)[/b], delimitano gli intervalli nei quali sono collocati[br][/*][/list]    i [b]valori minori di Q1[/b] (nella parte inferiore)[br]     e [b]quelli maggiori di Q3[/b] (nella parte superiore).[br][list][*]Indicando con r la[b] differenza interquartilica r = Q3-Q1[/b] si definiscono le quantità che individuano[br] il[b] Valore Adiacente Inferiore[/b], definito come il valore osservato più piccolo che sia maggiore o uguale a Q1-1,5r:[br] il [b]Valore Adiacente Superiore[/b], definito come il valore osservato più grande che risulta minore o uguale a Q3 + 1,5r:[br] La quantità 1,5 delle due formule è stato proposto da Tukey, ma non ha particolari proprietà. Alla domanda del perché avesse indicato 1,5 e non un altro valore, la risposta di Tukey è stata che la sua scelta era fondata sulla sua esperienza, sul suo “buon senso” statistico.[/*][/list][list][*]Se i due valori estremi[br] - sono contenuti entro l’intervallo [Q1-1,5r ; Q3+1,5r], i due baffi rappresentano i valori estremi e nei dati raccolti non sono presenti valori anomali.[br] - non sono contenuti nell'intervallo, sono definiti [b]valori anomali[/b]. Nella rappresentazione grafica del box-plot, i valori anomali,[b] sono segnalati individualmente[/b], poiché costituiscono una anomalia importante rispetto agli altri dati della distribuzione.[/*][/list]

Box-plot esercizi

Nel seguente foglio puoi vedere la forma che assume il Box-plot relativo ai dati inseriti. Puoi sostituirli con altri a tuo piacimento oppure li puoi trovare nel foglio elettronico che lo prelevi [url=https://drive.google.com/file/d/1RTMBkmrSNBam9K25MLWpNYmexv4f9vmM/view?usp=sharing] facendo clic con il tasto destro del mouse e salva l'oggetto collegato...[/url]. Per trasferirli dal foglio elettronico salvato al presente foglio di lavoro basta un copia-incolla (Ctrl+C e Ctrl+V) e poi segui le istruzioni.[br][br]Inserisci i dati nella colonna X, le frequenze nella colonna omonima (se non l'hai già fatto con il trasferimento) e poi il numero dei dati nella casella Num. [br]A questo punto premi il pulsante “sistema la posizione del grafico”.
[list][br][*] Com'è la dispersione? Le osservazioni intorno alla mediana come si concentrano o si disperdono?[br][*]La distribuzione è più o meno simmetrica?[br][*]I “baffi” sono più o meno lunghi?[br][*]Ci sono valori anomali? Come si spiegano?[br][/list]

Information