Calculați valori aberante

Autor: Charles Brown
Data Creației: 8 Februarie 2021
Data Actualizării: 27 Iunie 2024
Anonim
Statistics - How to find outliers
Video: Statistics - How to find outliers

Conţinut

A anormal sau anormal în statistici este un punct de date care diferă semnificativ de celelalte puncte de date dintr-un eșantion. Adesea, valorile aberante indică discrepanțe sau erori în măsurători către statistici, după care aceștia pot elimina valorile aberante din setul de date. Dacă aleg de fapt să elimine valorile aberante din setul de date, ar putea produce modificări semnificative în concluziile trase din studiu. Acesta este motivul pentru care este important să calculați și să determinați valori aberante dacă doriți să interpretați corect datele statistice.

A calca

  1. Aflați cum să identificați posibile valori aberante. Înainte de a putea decide dacă eliminăm valorile anormale dintr-un anumit set de date, trebuie, desigur, mai întâi să identificăm posibilele valori anormale din setul de date. În general, valorile aberante sunt punctele de date care se abat semnificativ de la tendința care formează celelalte valori din set - cu alte cuvinte, ele trage afară a celorlalte valori. De obicei, este ușor să recunoașteți acest lucru în tabele și (în special) în grafice. Dacă setul de date este grafic vizual, valorile aberante vor fi „departe” de celelalte valori. De exemplu, dacă majoritatea punctelor dintr-un set de date formează o linie dreaptă, valorile aberante nu vor fi conforme cu această linie.
    • Să aruncăm o privire la un set de date care arată temperaturile a 12 obiecte diferite dintr-o cameră. Dacă temperatura a 11 dintre obiecte fluctuează cu câteva grade cel mult în jurul valorii de 21 ° C, în timp ce un obiect, un cuptor, are o temperatură de 150 ° C, puteți vedea dintr-o privire că cuptorul este, probabil, un outlier.
  2. Sortați toate punctele de date de la cel mai mic la cel mai mare. Primul pas în calcularea valorilor aberante este de a găsi valoarea mediană (sau valoarea de mijloc) a setului de date. Această sarcină devine mult mai ușoară dacă valorile din set sunt în ordine de la cea mai mică la cea mai mare. Deci, înainte de a continua, sortați valorile din setul de date astfel.
    • Să continuăm cu exemplul de mai sus. Iată setul nostru de date care arată temperaturile în grade Fahrenheit ale diferitelor obiecte dintr-o cameră: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Dacă sortăm valorile din set de la cel mai mic la cel mai mare, acesta devine noul nostru set: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Calculați mediana setului de date. Mediana unui set de date este punctul de date în care jumătate din date se află deasupra acestuia și jumătate din date se află sub acesta - este, de fapt, „centrul” setului de date. Dacă setul de date conține un număr impar de puncte, mediana este ușor de găsit - mediana este punctul cu cât mai multe puncte de mai sus ca mai jos. Dacă există un număr par de puncte, deoarece nu există un singur centru, trebuie să luați media celor două puncte centrale pentru a găsi mediana. La calcularea valorilor aberante, mediana este de obicei menționată de variabila Q2 - deoarece se află între Q1 și Q3, primul și al treilea quartile. Vom determina aceste variabile mai târziu.
    • Nu vă lăsați confundați de seturile de date cu un număr par de puncte - media celor două puncte de mijloc este adesea un număr care nu se află în setul de date în sine - este în regulă. Cu toate acestea, dacă cele două puncte de mijloc sunt aceleași, media va fi, desigur, și acest număr - și acesta este Bine.
    • În exemplul nostru avem 12 puncte. Cei doi termeni din mijloc sunt punctele 6 și respectiv 7 - 70 și respectiv 71. Deci, mediana setului nostru de date este media acestor două puncte: ((70 + 71) / 2) =70,5.
  4. Calculați prima quartilă. Acest punct, pe care îl denotăm cu variabila Q1, este punctul de date sub care se află 25 la sută (sau un sfert) din observații. Cu alte cuvinte, acesta este centrul tuturor punctelor din setul de date de mai jos mediana. Dacă există un număr par de valori sub mediana, trebuie să luați din nou media celor două valori medii pentru a găsi Q1, așa cum ați fi putut face pentru a determina singur mediana.
    • În exemplul nostru, șase puncte sunt peste mediana și șase puncte sub aceasta. Deci, pentru a găsi prima quartilă, trebuie să luăm media celor două puncte din mijloc în cele șase puncte inferioare. Punctele 3 și 4 din cele șase de jos sunt ambele 70, deci media lor este ((70 + 70) / 2) =70. Deci valoarea noastră pentru Q1 este 70.
  5. Calculați a treia quartilă. Acest punct, pe care îl denotăm cu variabila Q3, este punctul de date peste care se află 25% din date. Găsirea Q3 este practic la fel ca G1, cu excepția faptului că ne uităm la punctele din acest caz de mai sus mediana.
    • Continuând cu exemplul de mai sus, vedem că cele două puncte de mijloc ale celor șase puncte de deasupra medianei sunt 71 și 72. Media acestor două puncte este ((71 + 72) / 2) =71,5. Deci, valoarea noastră pentru Q3 este 71,5.
  6. Găsiți gama interquartile. Acum că am stabilit Q1 și Q3 trebuie să calculăm distanța dintre aceste două variabile. Puteți găsi distanța dintre Q1 și Q3 scăzând Q1 din Q3. Valoarea pe care o obțineți pentru intervalul intercuartil este crucială pentru determinarea limitelor punctelor nedeviate din setul de date.
    • În exemplul nostru, valorile pentru Q1 și Q3 sunt 70 și respectiv 71,5. Pentru a găsi intervalul intercuartil, calculăm Q3 - Q1: 71,5 - 70 =1,5.
    • Acest lucru funcționează chiar dacă Q1, Q3 sau ambele numere sunt negative. De exemplu, dacă valoarea noastră pentru Q1 ar fi -70, intervalul intercuartil ar fi 71,5 - (-70) = 141,5, ceea ce este corect.
  7. Găsiți „Limitele interioare” ale setului de date. Puteți recunoaște valorile aberante determinând dacă acestea se încadrează într-un număr de limite numerice; așa-numitele „limite interioare” și „limite exterioare”. Un punct care se încadrează în afara limitelor interioare ale setului de date este clasificat ca unul ușor outlier, iar un punct în afara limitelor exterioare este clasificat ca unul extrem de extrem. Pentru a găsi limitele interioare ale setului de date, înmulțiți mai întâi intervalul intercuartil cu 1,5. Adăugați rezultatul la Q3 și scădeți-l din Q1. Cele două rezultate sunt limitele interioare ale setului dvs. de date.
    • În exemplul nostru, intervalul intercuartil este (71,5 - 70) sau 1,5. Înmulțiți acest lucru cu 1,5 pentru a obține 2,25. Adăugăm acest număr la Q3 și îl scădem din Q1 pentru a găsi limitele interioare după cum urmează:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Deci granițele interne sunt 67,75 și 73,75.
    • În setul nostru de date, doar temperatura cuptorului - 300 grade Fahrenheit - se află în afara acestui interval. Deci, acest lucru poate fi o valoare ușoară. Cu toate acestea, nu trebuie încă să stabilim dacă această temperatură este extrem de extremă, deci să nu trecem la concluzii încă.
  8. Găsiți „limitele exterioare” ale setului de date. Faceți acest lucru în același mod ca și în limitele interioare, cu singura diferență că înmulțiți distanța intercuartilă cu 3 în loc de 1,5. Apoi adăugați rezultatul la Q3 și scădeți din Q1 pentru a găsi valorile limită externe.
    • În exemplul nostru, înmulțim distanța intercuartilă cu 3 pentru a obține (1,5 * 3) sau 4,5. Acum putem găsi limitele exterioare în același mod ca și limitele interioare:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Deci, limitele exterioare sunt 65.5 și 76.
    • Punctele de date care se află în afara limitelor externe sunt considerate valori extreme. În exemplul nostru, temperatura cuptorului, de 300 grade Fahrenheit, este cu mult peste limitele exterioare. Deci temperatura cuptorului este cu siguranță un outlier extrem.
  9. Utilizați o evaluare calitativă pentru a determina dacă ar trebui să „aruncați” valorile aberante. Cu metoda de mai sus, puteți stabili dacă anumite puncte sunt valori atenuante ușoare, valori extrem de aberante sau absente. Dar nu vă faceți nicio greșeală - recunoașterea unui punct ca fiind un punct anormal îl face doar unul candidat să fie eliminat din setul de date și nu imediat un punct eliminat trebuie sa A se transforma în. motiv de ce diferențiază un outlier de restul punctelor din set este crucială pentru a determina dacă valoarea outlier trebuie eliminată. În general, valorile aberante cauzate de o anumită eroare - o eroare în măsurători, în înregistrări sau în proiectarea experimentală, de exemplu - sunt eliminate. În schimb, devin obișnuite valori care nu sunt cauzate de erori și care dezvăluie informații sau tendințe noi, neprevăzute nu șters.
    • Un alt criteriu de luat în considerare este dacă valorile aberante afectează media unui set de date într-un mod înclinat sau înșelător. Acest lucru este deosebit de important dacă intenționați să trageți concluzii din media setului de date.
    • Să ne judecăm exemplul. Din moment ce cel mai inalt Este puțin probabil ca cuptorul să fi atins o temperatură de 300 ° F din cauza unei forțe neprevăzute a naturii, în exemplul nostru putem concluziona cu aproape 100% certitudine că cuptorul a fost pornit accidental, provocând o citire a temperaturii anormal de ridicată. În plus, dacă nu eliminăm valorile anterioare, media setului nostru de date iese la (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, în timp ce media fără valoarea anterioară iese la (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Întrucât valorile aberante au fost cauzate de erori umane și pentru că este incorect să spunem că temperatura medie a camerei a fost aproape de 32 ° C, trebuie să alegem să folosim valorile aberante. elimina.
  10. Înțelegeți importanța păstrării (uneori) a valorilor aberante. În timp ce unele valori aberante ar trebui eliminate dintr-un set de date deoarece sunt rezultatul unor erori sau pentru că distorsionează rezultatele într-un mod înșelător, alte valori aberante ar trebui păstrate. De exemplu, dacă un outlier a fost corect obținut (și, prin urmare, nu rezultatul unei erori) și / sau dacă outlierul oferă o nouă perspectivă asupra fenomenului care trebuie măsurat, acesta nu trebuie eliminat imediat. Experimentele științifice sunt situații deosebit de sensibile atunci când vine vorba de abordarea valorilor aberante - înlăturarea greșită a valorilor aberante poate însemna aruncarea informațiilor importante despre o nouă tendință sau descoperire.
    • De exemplu, imaginați-vă că proiectăm un medicament nou pentru a crește peștele dintr-o fermă piscicolă. Să folosim vechiul nostru set de date ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), cu diferența că fiecare punct reprezintă acum masa unui pește (în grame) ) după tratamentul cu un alt medicament experimental de la naștere. Cu alte cuvinte, primul medicament a dat unui pește o masă de 71 de grame, al doilea a dat unui alt pește o masă de 70 de grame și așa mai departe. În această situație, 300 încă un atu imens, dar nu ar trebui să-l eliminăm acum. Deoarece, dacă presupunem că valoarea anterioară nu este rezultatul unei erori, aceasta reprezintă un mare succes în experimentul nostru. Medicamentul care a produs un pește de 300 de grame a funcționat mai bine decât orice alt medicament, deci acesta este cel mai punct de date important din setul nostru, în loc de cel mai puţin punct de date important.

sfaturi

  • Dacă găsiți valori aberante, încercați să le explicați înainte de a le elimina din setul de date; pot indica erori de măsurare sau abateri în distribuție.

Necesități

  • Calculator