Články

8.4: Medián a IQR


8.4: Medián a IQR

8.4: Medián a IQR

Pripomeňme si, že keď popisujeme distribúciu kvantitatívnej premennej, popisujeme celkový obrazec (tvar, stred a šírenie) v dátach a odchýlky od obrazca (odľahlé hodnoty). V & # 8220Distribúciách pre kvantitatívne údaje & # 8221 a & # 8220Measures of Center, & # 8221 sme sa zamerali na popis tvaru a stredu distribúcie. Tiež sme skúmali, ako tvar ovplyvňuje našu voľbu meraní stredu. V dokumente & # 8220Quantifying Variability Relative to the Median & # 8221 and Quantifying Variability Relative to the Mean sa & # 8221 zameriavame na presnejší popis šírenia distribúcie.

Začneme popisom šírenia okolo mediánu.

Príklad


Odľahlé hodnoty a Tukeyove ploty:

Ak vo vzorke nie sú nijaké mimoriadne hodnoty, použije sa stredná hodnota a štandardná odchýlka na zhrnutie typickej hodnoty a variability vo vzorke. Ak sú vo vzorke odľahlé hodnoty, na zhrnutie typickej hodnoty a variability vo vzorke sa použije stredný a medzikvartilový rozsah.

Existuje niekoľko metód na stanovenie odľahlých hodnôt vo vzorke. Veľmi populárna metóda je založená na nasledujúcom:

Odľahlé hodnoty sú hodnoty pod Q1-1,5 (Q3-Q1) alebo vyššie Q3+1,5 (Q3-Q1) alebo ekvivalentne hodnoty pod Q1-1,5 IQR alebo vyšší ako Q3+1,5 IQR.

Označujú sa ako ploty Tukey. 6 Pre diastolický krvný tlak je dolná hranica 64 - 1,5 (77-64) = 44,5 a horná hranica 77 + 1,5 (77-64) = 96,5. Diastolický krvný tlak sa pohybuje od 62 do 81. Preto neexistujú žiadne mimoriadne hodnoty. Najlepšie zhrnutie typického diastolického tlaku je priemer (v tomto prípade 71,3) a najlepšie zhrnutie variability je dané štandardnou odchýlkou ​​(s = 7,2).

Tabuľka 13 zobrazuje priemery, štandardné odchýlky, mediány, kvartily a medzikvartilové rozpätia pre každú z kontinuálnych premenných v podvzorku n = 10 účastníkov, ktorí sa zúčastnili siedmeho vyšetrenia Framinghamskej štúdie potomkov.


Parametre populácie verzus štatistika vzorky

Popisným opatrením pre celú populáciu je parameter „.“ Existuje mnoho parametrov populácie, napríklad veľkosť populácie (N) je jeden parameter a priemerný diastolický krvný tlak alebo priemerná telesná hmotnosť populácie by boli ďalšie parametre, ktoré sa týkajú spojitých premenných. Ostatné populačné parametre sa zameriavajú na diskrétne premenné, ako je napríklad percento súčasných fajčiarov v populácii alebo percento ľudí s diabetes mellitus 2. typu. Takto sa dá uvažovať aj o zdravotnom správaní, napríklad o percente populácie, ktorá sa každý rok očkuje proti chrípke, alebo o percente, ktoré pri jazde bežne používajú bezpečnostné pásy.

Spravidla však nie je možné priamo merať parametre, pretože to vyžaduje zhromažďovanie informácií od všetkých členov populácie. Preto odoberáme vzorky z populácie a popisné hodnoty pre vzorku sa označujú ako „štatistika vzorky“ alebo jednoducho „štatistika“. Napríklad priemerný diastolický krvný tlak, priemerná telesná hmotnosť a percento fajčiarov vo vzorke z populácie by bolo štatistickou vzorkou. Na obrázku nižšie je skutočný priemerný diastolický krvný tlak pre populáciu dospelých v Massachusetts 78 milimetrov ortuti (mm Hg), čo je populačný parameter. Obrázok tiež ukazuje priemerný diastolický krvný tlak v troch samostatných vzorkách. Jedná sa o výberové štatistiky, ktoré by sme mohli použiť na odhad parametra pre celú populáciu. Upozorňujeme však, že všetky štatistické údaje o vzorkách sa trochu líšia a žiadna z nich nie je vzorkou ako parameter populácie.

Aby sme objasnili niektoré základné skutočnosti, zvážme veľmi malú vzorku s údajmi uvedenými v nasledujúcej tabuľke.

Tabuľka - Hodnoty údajov pre malú vzorku

Upozorňujeme, že tabuľka s údajmi obsahuje nepretržité premenné (vek, dĺžka pobytu v nemocnici, index telesnej hmotnosti) a diskrétne premenné, ktoré sú dichotomické (cukrovka 2. typu a súčasné fajčenie). Najprv sa zamerajme na spojité premenné, ktoré zhrnieme výpočtom centrálnej miery a údajom o tom, koľko je okolo tohto centrálneho odhadu.


Faktory spojené s recidívou a dĺžkou prežitia po relapse u pacientov s neuroblastómom

Pozadie: Napriek terapeutickému pokroku zostáva prežitie po relapse u pacientov s neuroblastómom zlé. Skúmali sme klinické a biologické faktory spojené s dĺžkou bez progresie a celkovým prežívaním po relapse u pacientov s neuroblastómom vo Veľkej Británii.

Metódy: Všetky prípady relabovaného neuroblastómu diagnostikované v rokoch 1990 - 2010 boli identifikované zo štyroch hlavných liečebných centier pediatrickej onkológie. Na výpočet celkového prežívania po relapse (PROS), prežitia bez progresie po relapse (PRPFS) medzi relapsom a ďalšou progresiou a na skúmanie ovplyvňujúcich faktorov sa použili regresné analýzy Kaplan-Meier a Cox.

Výsledky: Z poznámok k prípadu bolo identifikovaných 188 prípadov, 159 (84,0%) s vysokým rizikom a 17 (9,0%), neresekovateľných, MYCN nezosilňujúcich (non-MNA) stredné riziko (IR). U vysoko rizikových pacientov s diagnostikovanou hodnotou> 2 000 bol medián PROS 8,4 mesiaca (medzikvartilové rozpätie (IQR) = 3,0 - 17,4) a medián PRPFS bol 4,7 mesiaca (IQR = 2,1 - 7,1). U IR, neresekovateľných pacientov bez MNA, bol medián PROS 11,8 mesiaca (IQR 9,0-51,6) a 5-ročný PROS bol 24% (95% CI 7-45%). Ochorenie amplifikované MYCN (MNA) a metastázy kostnej drene pri diagnostike boli nezávisle spojené s horšou PROS pre vysoko rizikové prípady. Osemdesiat percent vysokorizikových relapsov sa vyskytlo do 2 rokov od stanovenia diagnózy v porovnaní s 50% neresekovateľného non-MNA IR ochorenia.

Závery: Pacienti s relabujúcim HR neuroblastómami majú byť liečení stratifikovaní podľa stavu MYCN a PRPFS by mal byť primárnym koncovým ukazovateľom v počiatočných fázach klinických štúdií. Neschopnosť zachrániť väčšinu IR neuroblastómu sa týka, čo podporuje vyšetrenie intenzifikácie režimov predbežnej liečby v tejto skupine s cieľom určiť, či by ich použitie znížilo pravdepodobnosť relapsu.

Vyhlásenie o konflikte záujmov

Dr. Lucas Moreno zverejňuje nasledujúce aktivity: účasť konzultačnej / poradnej rady pre spoločnosti Novartis, AstraZeneca, RocheGenentech, Mundipharma a Bayer. Zvyšní autori neprehlasujú žiadny konflikt záujmov.


Načítajte balíčky

Najjednoduchší prípad použitia

Najjednoduchším prípadom použitia je zhrnutie celého súboru údajov. Môžete jednoducho vložiť v dátovom rámci do hlavnej funkcie pracovného koňa CreateTableOne (). V datasete môžete vidieť 418 pacientov.

Konverzia kategorických premenných

Väčšina kategorických premenných je kódovaná číselne, takže ich buď musíme transformovať na faktory v množine údajov, alebo ich pomocou funkcie factorVars transformovať za behu. Je tiež lepšou praxou určiť, ktoré premenné sa majú zhrnúť pomocou argumentu vars, a vylúčiť premenné ID. Ako vieme, ktoré z nich sú číselne kódované kategorické premenné? Skontrolujte svoj dátový slovník (v tomto prípade pomoc (PBBC)). Tentokrát ukladám výsledný objekt do premennej.

Ok. Teraz je to interpretovateľnejšie. Binárne kategorické premenné sú zhrnuté ako počty a percentá druhej úrovne. Napríklad, ak je kódovaný ako 0 a 1, je zhrnutá úroveň „1“. Pre premennú kategóriu 3+ sú zhrnuté všetky úrovne. Majte na pamäti, že percentá sa počítajú po vylúčení chýbajúcich hodnôt.

Zobrazenie všetkých úrovní pre kategorické premenné

Ak chcete zobraziť všetky úrovne, môžete k metóde print () použiť argument showAllLevels.

Podrobné informácie vrátane nezvestnosti

Ak potrebujete podrobnejšie informácie vrátane chýbajúceho počtu / pomeru. Na výsledný objekt použite metódu Summary (). Spojité premenné sú zobrazené ako prvé a kategorické premenné sú zobrazené ako prvé.

Sumarizácia nenormálnych premenných

Vyzerá to, že väčšina spojitých premenných je vysoko skreslená, okrem času, veku, albumínu a krvných doštičiek (biomarkery sú zvyčajne distribuované so silnými pozitívnymi skresleniami). Ich zhrnutie ako také môže potešiť vašich budúcich recenzentov. Urobme to s neobvyklým argumentom pre metódu print (). Vidíš ten rozdiel. Ak poviete iba nenormálne = TRUE, všetky premenné sa zhrnú „nenormálne“.

Jemné doladenie

Ak chcete tabuľku ešte viac doladiť, pozrite si prosím? Print.TableOne pre kompletný zoznam možností.


8.4: Medián a IQR

Súhrn päť čísel je metóda na sumarizáciu distribúcie údajov. Päť čísel je minimum, hodnota prvého kvartilu (Q1), medián, hodnota tretieho kvartilu (Q3) a maximum.

Uveďte súhrn piatich čísel pre nasledujúcu množinu údajov:

1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6, 6, 6, 7, 8, 8, 9, 27

Prvá vec, ktorú si môžete všimnúť na tejto množine údajov, je číslo 27. To sa veľmi líši od ostatných údajov. Je to príliš veľká hodnota a musí sa odstrániť. Pokiaľ ide o odľahlé hodnoty, odstránime všetko, čo nie je medzi dolným a horným plotom:

Tu najskôr nájdeme hodnoty prvého kvartilu (Q1) a tretieho kvartilu (Q3). Tieto dve hodnoty potom použijeme na nájdenie medzikvartilového rozsahu (IQR). Nakoniec tieto hodnoty môžeme použiť na nájdenie dolného a horného plotu. Po pripojení hodnôt nájdeme dolné ohraničenie -3 a horné ohraničenie 13. Teraz odstránime 27 z pôvodnej množiny údajov, pretože spadajú mimo tento rozsah. Náš nový súbor údajov je:


Medzikvartilové, polovikvartilové a stredné kvartilové rozsahy

V množine údajov sú kvartily hodnoty, ktoré rozdeľujú údaje na štyri rovnaké časti. Medián množiny údajov oddeľuje množinu na polovicu.

Medián dolnej polovice súboru údajov je dolný kvartil (L Q) alebo Q 1.

Medián hornej polovice súboru údajov je horný kvartil (U Q) alebo Q 3.

Horný a dolný kvartil možno použiť na nájdenie ďalšej variačnej miery, ktorá sa nazýva medzikvartilový rozsah.

The medzikvartilový rozsah alebo IQR je rozsah strednej polovice súboru údajov. Je to rozdiel medzi horným a dolným kvartilom.

Medzikvartilový rozsah = Q 3 a mínus Q 1

Vo vyššie uvedenom príklade je dolný kvartil 52 a horný kvartil 58.

Medzikvartilový rozsah je 58 a mínus 52 alebo 6.

Údaje, ktoré sú viac ako 1,5-násobkom hodnoty medzikvartilového rozsahu nad kvartilmi, sa nazývajú odľahlé hodnoty.

Štatistici niekedy používajú aj tieto výrazy polointerkvartilový rozsah a rozsah stredného kvartilu .

Polointerkvartilový rozsah je polovičný rozdiel medzi prvým a tretím kvartilom. Je to polovica vzdialenosti potrebnej na prekonanie polovice skóre. Extrakčné skóre ovplyvňuje semi-interkvartilový rozsah veľmi málo. To z neho robí dobrú mieru šírenia pre skreslené distribúcie. Získava sa vyhodnotením Q 3 a mínus Q 1 2.

Rozsah stredného kvartilu je číselná hodnota uprostred medzi prvým a tretím kvartilom. Je to polovica súčtu prvého a tretieho kvartilu. Získava sa vyhodnotením Q 3 + Q 1 2.

(Medián, stredný rozsah a stredný kvartil nie sú vždy rovnaké, hoci môžu byť.)


Dodatok

Emory COVID-19 Quality and Clinical Research Collaborative Members (v abecednom poradí): Max W. Adelman, Scott Arno, Sara C. Auld, Theresa Barnes, William Bender, James M. Blum, Gaurav Budharani, Stephanie Busby, Laurence Busse, Mark Caridi-Scheible, David Carpenter, Nikulkumar Chaudhari, Craig M. Coopersmith, Lisa Daniels, Jane Fazio, Babar Fiza, Eliana Gonzalez, Ria Gripaldo, Charles Grodzin, Robert Groff, Alfonso C. Hernandez-Romieu, Max Hockstein, Dan Hunt, Craig S. Jabaley, Jesse T. Jacob, Colleen Kraft, Greg S. Martin, Samer Melham, Nirja Mehta, Chelsea Modlin, David J. Murphy, Mia Park, Deepa Patel, Cindy Powell, Amit Prabhaker, Jeeyon Rim, Ramzy Rimawi, Čad Robichaux, Nicholas Scanlon, Milad Sharifpour, Bashar Staitieh, Michael Sterling, Jonathan Suarez, Colin Swenson, Nancy Thakkar, Alexander Truong, Hima Veeramachaneni, Alvaro Velasquez, Michael Waldmann, Max Weinmann, Thanushi Wynn a Joel Zivot.