لودر سایت

نقاط خارج افتاده outlier points

نقاط خارج افتاده، داده هايي هستند که با الگوي اصلي داده ها متفاوتند و يا نمايانگر مجموعه داده ها نمي باشند. نقاط خارج افتاده تاثير بسياري بر محاسبات يا مطالعات آماري دارند. مهمترين عامل براي جلوگيري از استفاده يا شناسايي اين نقاط داشتن دقت کافي در حين تجزيه و تحليل آماري است.

هر داده اي که در مورد خارج بودن آن ترديد وجود دارد، مورد ارزيابي قرار مي گيرد و در صورت خارج بودن يا احتمال بسيار زياد به خارج بودن مردود مي شود. گاهي اوقات نتايج بررسي، مشخص کننده اشتباه در ثبت يا محاسبات است که ميتوان براي کسب مقدار صحيح، آن را دوباره انجام داد. در غير اين صورت، نقطه خارج افتاده حذف ميگردد.

آزمون دیکسون Dixon test

آزمون دیکسون که گاهی به نام آزمون Q نامیده می شود آزمون متداولی برای جواب های انحرافی است زیرا محاسبات آن ساده است. برای نمونه های با تعداد کم(3تا7) آزمون جواب مشکوک را با مقایسه تفاوت بین آن و نزدیک ترین جواب به آن از لحاظ مقدار، با تفاوت موجود بین بزرگترین و کوچک ترین جواب ها ارزیابی می کند.

به منظور بکارگیری آزمون دیکسون در مورد یک جواب انحرافی، یعنی بررسی H0 جواب ها از یک جمعیت به دست می آیند، آماره Q به طرز زیر بدست می آید:

برای بررسی داده های از سمت پایین از این رابطه استفاده می شود:

برای بررسی داده های از سمت بالا از این رابطه استفاده می شود:

این آزمون برای نمونه های دارای 3 تا 7 جواب با ارزش است و فرض می کند که جمعیت از توزیع طبیعی برخوردار است.

مقدار بحرانیتعداد نمونه
0.8314
0.7175
0.6216
0.5707

مقادیر بحرانی Q با سطح اطمینان 95% برای یک آزمون دو طرفه

مثال10: مقادیر زیر برای غلظت نیتریت در یک نمونه از آب رودخانه بدست آمده اند.

0.380    0.401   0.410   0.403

از جدول مقادیر بحرانی Q برای 4 نمونه، مقدار بحرانی Q برابر با 0.831 می باشد و از آن جایی که مقدار محاسبه شده 0.7 و کمتر از مقدار بحرانی می باشد فرض مشکوک بودن رد می شود.

نکته 1:در صورتی که تعداد بیش از یک داده پرت وجود دارد، انجام آزمون داده های پرت توصیه نمی شود، زیر احتمال تشخیص اشتباه داده های پرت وجود دارد.

نکته2: در صورتی که احتمال وجود یک یا چند داده پرت وجود دارد و یا تعداد داده ها زیاد تر از 7 است می توان از آزمون های دیگر Q test در مینی تب استفاده کرد.

تفاوت ازمون های دیکسون
تعداد نمونه های هر ازمون

آزمون دیکسون با استفاده از نرم افزار Minitab

. Stat\ Basic statistics\ outlier test 1-

2-نام ستون حاوي داده ها را در قسمت columns in Samples وارد ميکنيم.

3-در قسمت Options سطح اطمينان مورد نظر و آزمون مورد نظر (dixon’s Q ratio)را وارد ميکنيم .

4-نوع فرضیه را انتخاب می کنیم.(smallest or largest data is an outlier)

5-دکمه ok را می زنیم.

به طور ایده آل، وقتی مقدار مشکوکی ظاهر شود، اندازه گیری های دیگری باید انجام گیرد. به ویژه هنگامی که تنها چندین جواب در ابتدا به دست آمده باشد، تکرار اندازه گیری ممکن است مطرود بودن مقدار مشکوک را روشن تر سازد و چنانچه باز هم مقدار مشکوک نگه داشته شود، این کار تا حدودی از تاثیر آن بر میانگین و انحراف معیار خواهد کاست.

مثال 11: به طور مثال اگر سه اندازه گیری دیگر به مقادیر داده شده به مثال بالا اضافه شود، نتایج کامل در این صورت عبارت است از:

0.4110.4130.4000.3800.4010.4100.403

آیا 0.380 را باز هم باید نگه داشت؟

مقدار محاسبه شده Q در این صورت عبارت است از:

مقدار بحرانی Q در سطح 95% برای 7 نمونه برابر با 0.570 است، بنابراین رقم مشکوک(0.380)، در سطح معنی داری 5 درصد حذف خواهد شد.

آزمون گرابز Grubbs test

آزمون دیگری که غالبا در مورد جواب های انحرافی به کار می رود آزمون گرابز است که انحراف جواب مشکوک از مقدار میانگین نمونه را با انحراف  نمونه مقایسه می کند. این آزمون از سوی سازمان ایزو با مزیت بیشتری نسبت به آزمون دیکسون توصیه شده است.

به منظور به کارگیری آزمون گرابز در مورد یک جواب انحرافی، تمام جواب ها از یک جمعیت بدست می آیند، آماره G از طریق رابطه زیر محاسبه می شود:

که در آن s با منظور داشتن جواب مشکوک جزو جواب ها حساب می شود. آزمون فرض می کند که جمعیت دارای توزیع نرمال است.

معادله عمومی بالا به صورت های زیر قابل بازنویسی است:

در اينجا X1 يا XN مقاديري هستند که به آن ها مشکوک هستيم و اگر به هر دوي آنها مشکوک باشيم ازG”  استفاده مي نماييم. در معادله فوق، S  برابر با انحراف استاندارد در حالتي مي باشد که ما X′′ و XN را هم در نظر گرفته ايم.

مثال12: از طریق آزمون گرابز داده هایی زیر را بررسی کنید.

0.4110.4130.4000.3800.4010.4100.403

مقدار بحرانی در سطح 95% برابر با 2.02 است و جواب مشکوک 0.380، بر خلاف آزمون دیکسون حذف نمی شود. این چنین نتایج ناهمخوان در مورد آزمون های مربوط به جواب های انحرافی غیر متداول نمی باشد.

آزمون گرابز با استفاده از نرم افزار Minitab

. Stat\ Basic statistics\ outlier test 1-

2-نام ستون حاوي داده ها را در قسمت columns in Samples وارد ميکنيم.

3-در قسمت Options سطح اطمينان مورد نظر و آزمون مورد نظر (grubbs)را وارد ميکنيم .

4-نوع فرضیه را انتخاب می کنیم.(smallest or largest data is an outlier)

5-دکمه ok را می زنیم..

آزمون Grubbs براي دو نقاط خارج افتاده جفتي

جفت پايين pair low و جفت بالا pair high نشان دهنده دو نقطه خارج افتاده پايين يا بالا پس از مرتب کردن داده ها ميباشند.

G low pair  و G high pair نشان دهنده دو نقطه خارج افتاده پايين و بالایی داده هاي مرتب شده مي باشند.

 Slp  انحراف استاندارد محاسبه شده بدون در نظر گرفتن دو داده کوچک بوده و ϑ=n-2  مي باشد.

براي نقاط خارج افتاده بالا، Shp  بدون در نظر گرفتن دو داده بزرگ محاسبه شده و مقدار آن جايگزين مقدار Slp در معادله فوق ميگردد. در آزمون Grubbs ،مقادير محاسبه شده را با مقادير کليدي مقايسه مي نماييم.

نویسنده پست: ghaemi mohammad

این سایت جهت ارائه اطلاعات بروز و تخصصی در حوزه سیستم های مدیریت کیفیت و اشتراک گزاردن تجربیات اینجانب در حوزه ارزیابی انطباق و ترویج و ارتقای این علم تشکیل شده است

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *