Come rilevare gli outlier: 10 passaggi (con immagini)

Sommario:

Come rilevare gli outlier: 10 passaggi (con immagini)
Come rilevare gli outlier: 10 passaggi (con immagini)

Video: Come rilevare gli outlier: 10 passaggi (con immagini)

Video: Come rilevare gli outlier: 10 passaggi (con immagini)
Video: 7 IDEE FANTASTICHE PER LE TUE SCARPE 2024, Aprile
Anonim

In statistica, un outlier o "outlier" è un dato che si discosta molto da qualsiasi altro dato all'interno di un campione o di un insieme di dati (l'insieme di dati è chiamato dati). Spesso, un valore anomalo in un insieme di dati può servire come avvertimento per lo statistico di un'anomalia o errore sperimentale nelle misurazioni effettuate, che potrebbe portare lo statistico a rimuovere il valore anomalo dall'insieme di dati. Se lo statistico rimuove gli outlier dall'insieme di dati, le conclusioni tratte dallo studio possono essere molto diverse. Pertanto, sapere come calcolare e analizzare gli outlier è molto importante per garantire la corretta comprensione di un insieme di dati statistici.

Fare un passo

Calcolo valori anomali Passaggio 1
Calcolo valori anomali Passaggio 1

Passaggio 1. Scopri come identificare i dati potenzialmente anomali

Prima di decidere se rimuovere o meno i dati anomali dall'insieme di dati, dobbiamo ovviamente identificare quali dati hanno il potenziale per diventare valori anomali. In generale, un outlier è un dato che si discosta molto dagli altri datum in un insieme di dati, in altre parole, un outlier è "fuori" dagli altri datum. Di solito è facile rilevare valori anomali in una tabella di dati o (in particolare) in un grafico. Se un insieme di datum è descritto visivamente con un grafico, il datum outlier apparirà "molto lontano" dagli altri datum. Se, ad esempio, la maggior parte dei datum in un insieme di datum formano una linea retta, il datum outlier non verrà ragionevolmente interpretato come formante quella linea.

Diamo un'occhiata a un insieme di dati che rappresentano le temperature di 12 oggetti diversi in una stanza. Se 11 oggetti hanno una temperatura di circa 70 Fahrenheit (21 gradi Celsius), ma il dodicesimo oggetto, un forno, ha una temperatura di 300 Fahrenheit (150 gradi Celsius), si può notare immediatamente che è molto probabile che la temperatura del forno sia un valore anomalo

Calcola valori anomali Passaggio 2
Calcola valori anomali Passaggio 2

Passaggio 2. Disporre i datum in una serie di datum dal più basso al più alto

Il primo passaggio per calcolare i valori anomali in un insieme di dati consiste nel trovare la mediana (valore medio) di tale insieme di dati. Questa operazione diventa molto semplice se i datum in un insieme di datum sono disposti dal più piccolo al più grande. Quindi, prima di continuare, disponi i datum in uno di questi set di datum.

Continuiamo l'esempio sopra. Questo è il nostro insieme di dati che rappresentano le temperature di diversi oggetti in una stanza: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Se disponiamo i dati dal più basso al più alto, l'ordine dei dati diventa: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Calcolo valori anomali Passaggio 3
Calcolo valori anomali Passaggio 3

Passaggio 3. Calcolare la mediana dell'insieme di dati

La mediana di un insieme di dati è un dato in cui l'altra metà del datum è al di sopra di quel dato e la metà rimanente è al di sotto di esso, in pratica quel dato è il dato che si trova nel "mezzo" dell'insieme di dati. Se il numero di datum in un insieme di datum è dispari, è molto facile da trovare: la mediana è il dato che ha lo stesso numero sopra e sotto. Tuttavia, se il numero di datum nell'insieme di datum è pari, poiché nessun dato si adatta al centro, viene calcolata la media dei 2 datum nel mezzo per trovare la mediana. Va notato che, nel calcolo degli outlier, alla mediana viene solitamente assegnata la variabile Q2-ni perché Q2 è compreso tra Q1 e Q3, il quartile inferiore e superiore, di cui parleremo in seguito.

  • Da non confondere con un insieme di origini in cui il numero di origini è pari - la media dei 2 origini centrali restituirà spesso un numero che non è nell'insieme di origini stesso - questo va bene. Tuttavia, se i 2 dati intermedi sono lo stesso numero, la media, ovviamente, sarà anche lo stesso numero, il che va bene.
  • Nell'esempio sopra, abbiamo 12 datum. I 2 datum centrali sono rispettivamente il 6° e il 7° datum-70 e 71. Quindi, la mediana del nostro insieme di datum è la media di questi 2 numeri: ((70 + 71) / 2), = 70.5.
Calcola valori anomali Passaggio 4
Calcola valori anomali Passaggio 4

Passaggio 4. Calcola il quartile inferiore

Questo valore, che diamo alla variabile Q1, è il dato che rappresenta il 25 percento (o un quarto) dei dati. In altre parole, è il dato che biseca i dati che sono al di sotto della mediana. Se il numero di datum al di sotto della mediana è pari, devi ancora fare la media dei 2 datum nel mezzo per trovare Q1, proprio come faresti per trovare la mediana stessa.

Nel nostro esempio, ci sono 6 origini che si trovano al di sopra della mediana e 6 origini che si trovano al di sotto della mediana. Ciò significa che, per trovare il quartile inferiore, dovremo fare la media dei 2 dati nel mezzo dei 6 dati sotto la mediana. Il 3° e il 4° dato di 6 dati sotto la mediana sono entrambi 70. Quindi, la media è ((70 + 70) / 2), = 70. 70 diventa il nostro Q1.

Calcola valori anomali Passaggio 5
Calcola valori anomali Passaggio 5

Passaggio 5. Calcola il quartile superiore

Questo valore, che diamo alla variabile Q3, è il dato su cui si trova il 25 percento dei datum nell'insieme di datum. Trovare Q3 è praticamente uguale a trovare Q1, tranne per il fatto che, in questo caso, stiamo guardando i dati sopra la mediana, non sotto la mediana.

Continuando il nostro esempio sopra, i 2 datum nel mezzo dei 6 datum sopra la mediana sono 71 e 72. La media di questi 2 datum è ((71 + 72)/2), = 71, 5. 71, 5 è il nostro Q3.

Calcola valori anomali Passaggio 6
Calcola valori anomali Passaggio 6

Passaggio 6. Trova la distanza interquartile

Ora che abbiamo trovato Q1 e Q3, dobbiamo calcolare la distanza tra queste due variabili. La distanza da Q1 a Q3 si ottiene sottraendo Q1 da Q3. I valori che ottieni per le distanze interquartili sono molto importanti per definire i confini dei datum non outlier nel tuo insieme di datum.

  • Nel nostro esempio, i nostri valori di Q1 e Q3 sono 70 e 71, 5. Per trovare la distanza interquartile, sottraiamo Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Va notato che questo è vero anche se Q1, Q3 o entrambi sono numeri negativi. Ad esempio, se il nostro valore Q1 fosse -70, la nostra distanza interquartile corretta sarebbe 71,5 - (-70) = 141, 5.
Calcola valori anomali Passaggio 7
Calcola valori anomali Passaggio 7

Passaggio 7. Trova la "recinzione interna" nel set di dati

Gli outlier si trovano controllando se il dato rientra nei limiti numerici chiamati “recinto interno” e “recinto esterno”. Un dato che cade al di fuori della recinzione interna dell'insieme di dati viene indicato come "anomalo minore", mentre un dato che cade all'esterno della recinzione esterna è indicato come "anomalo anomalo". Per trovare la recinzione interna nel tuo insieme di riferimenti, moltiplica prima la distanza interquartile per 1, 5. Quindi, aggiungi il risultato per Q3 e sottrailo anche da Q1. I due valori che ottieni sono i confini della recinzione interna del tuo insieme di dati.

  • Nel nostro esempio, la distanza interquartile è (71,5 - 70) o 1,5. Moltiplica 1,5 per 1,5 che risulta in 2,25. Aggiungiamo questo numero a Q3 e sottraiamo Q1 per questo numero per trovare i confini della recinzione interna come segue:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Quindi, i confini del nostro recinto interiore sono 67, 75 e 73, 75.
  • Nel nostro set di dati, solo la temperatura del forno, 300 Fahrenheit, è al di fuori di questi limiti e quindi questo dato è un valore anomalo minore. Tuttavia, non abbiamo ancora calcolato se questa temperatura sia un valore anomalo, quindi non trarre conclusioni affrettate finché non avremo fatto i nostri calcoli.

    Calcola valori anomali Passaggio 7Bullet2
    Calcola valori anomali Passaggio 7Bullet2
Calcola valori anomali Passaggio 8
Calcola valori anomali Passaggio 8

Passaggio 8. Trova il "recinto esterno" nel set di dati

Questa operazione viene eseguita allo stesso modo della ricerca della recinzione interna, tranne per il fatto che la distanza interquartile viene moltiplicata per 3. Il risultato viene quindi aggiunto a Q3 e sottratto da Q1 per trovare i limiti superiore e inferiore della recinzione esterna.

  • Nel nostro esempio, moltiplicando la distanza interquartile per 3 si ottiene (1, 5 x 3), o 4, 5. Troviamo i confini della recinzione esterna allo stesso modo di prima:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • I confini della recinzione esterna sono 65,5 e 76.
  • I dati che si trovano al di fuori del confine della recinzione esterna sono indicati come valori anomali principali. In questo esempio, la temperatura del forno, 300 Fahrenheit, è chiaramente al di fuori della recinzione esterna, quindi questo dato è "sicuramente" un valore anomalo.

    Calcolo valori anomali Passaggio 8Bullet2
    Calcolo valori anomali Passaggio 8Bullet2
Calcola valori anomali Passaggio 9
Calcola valori anomali Passaggio 9

Passaggio 9. Utilizzare il giudizio qualitativo per determinare se "scartare" o meno il dato anomalo

Utilizzando il metodo sopra descritto, è possibile determinare se un dato è un dato minore, un dato principale o non è affatto un dato anomalo. Tuttavia, non commettere errori: trovare un dato come valore anomalo contrassegna quel dato solo come un "candidato" da rimuovere dall'insieme di dati, non come un dato che "dovrebbe" essere scartato. Il "motivo" che fa sì che un dato outlier si discosti da altri datum in un insieme di dati è molto importante per determinare se eliminarlo o meno. In generale, un valore anomalo causato da un errore nella misurazione, registrazione o pianificazione sperimentale, ad esempio, può essere scartato. D'altra parte, i valori anomali che non sono causati da errori e che indicano nuove informazioni o tendenze che non erano state previste in precedenza vengono solitamente "non" scartati.

  • Un altro criterio da considerare è se l'outlier ha un grande effetto sulla media di un insieme di dati, cioè se l'outlier lo confonde o lo fa sembrare sbagliato. Questo è molto importante da considerare se intendi trarre conclusioni dalla media del tuo set di dati.
  • Studiamo il nostro esempio. In questo esempio, poiché sembra “altamente” improbabile che il forno abbia raggiunto i 300 Fahrenheit per imprevedibili forze naturali, possiamo concludere con quasi certezza che il forno sia stato accidentalmente lasciato acceso, determinando un dato anormale di alta temperatura. Inoltre, se non rimuoviamo i valori anomali, la media del nostro insieme di dati è (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheit (32 gradi Celsius), mentre la media se togliamo gli outlier è (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 gradi Celsius).

    Poiché questi valori anomali sono stati causati da un errore umano e poiché non sarebbe corretto dire che la temperatura media della stanza raggiunge quasi 90 Fahrenheit (32 gradi Celsius), è meglio scegliere di "buttare via" i nostri valori anomali

Calcola valori anomali Passaggio 10
Calcola valori anomali Passaggio 10

Passaggio 10. Conoscere l'importanza (a volte) di mantenere valori anomali

Sebbene alcuni valori anomali debbano essere rimossi dall'insieme di dati perché causano errori e/o rendono i risultati imprecisi o errati, alcuni valori anomali dovrebbero essere mantenuti. Se, ad esempio, un outlier sembra essere acquisito naturalmente (cioè non il risultato di un errore) e/o fornisce una nuova prospettiva sul fenomeno in studio, l'outlier non dovrebbe essere rimosso dall'insieme di dati. La ricerca scientifica è di solito una situazione molto delicata quando si tratta di valori anomali: rimuovere in modo errato i valori anomali può significare scartare informazioni che indicano una nuova tendenza o scoperta.

Ad esempio, supponiamo che stiamo progettando un nuovo farmaco per aumentare le dimensioni dei pesci in un laghetto. Useremo il nostro vecchio insieme di dati ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), tranne che, questa volta, ogni dato rappresenterà il peso di un pesce (in grammi) dopo aver ricevuto un farmaco sperimentale diverso dalla nascita. In altre parole, il primo farmaco fa sì che un pesce pesi 71 grammi, il secondo farmaco fa pesare un altro pesce 70 grammi e così via. In questo caso 300 è “ancora” un grosso outlier, ma non dobbiamo scartare questo dato perché, supponendo che sia stato ottenuto senza errori, rappresenta un successo nello studio. Il farmaco che può far pesare i pesci 300 grammi funziona meglio di tutti gli altri farmaci, quindi questo dato è in realtà il "più" importante nel nostro insieme di dati, non il "meno importante"

Consigliato: