পরিসংখ্যানের মধ্যে, একটি বহিরাগত বা "বহিরাগত" একটি ডেটাম যা একটি নমুনা বা ডাটামের সেটের মধ্যে অন্য কোন ডেটাম থেকে অনেক দূরে চলে যায় (ডেটামের সেটকে ডেটা বলা হয়)। প্রায়শই, একটি ডেটাম সেটের বহিরাগত পরিসংখ্যানবিদদের একটি অস্বাভাবিকতা বা পরীক্ষামূলক ত্রুটির একটি সতর্কতা হিসাবে পরিমাপে পরিবেশন করতে পারে, যা পরিসংখ্যানবিদকে ডেটাম সেট থেকে বহিরাগতকে সরিয়ে দিতে পারে। যদি পরিসংখ্যানবিদ ডেটাম সেট থেকে বহিরাগতদের সরিয়ে দেন, তাহলে অধ্যয়ন থেকে প্রাপ্ত সিদ্ধান্তগুলি খুব আলাদা হতে পারে। অতএব, পরিসংখ্যানগত ডেটাম সেটের সঠিক উপলব্ধি নিশ্চিত করার জন্য বহিরাগতদের কীভাবে গণনা এবং বিশ্লেষণ করতে হয় তা জানা খুবই গুরুত্বপূর্ণ।
ধাপ
ধাপ 1. সম্ভাব্য বহিরাগত ডেটাগুলি কীভাবে সনাক্ত করতে হয় তা শিখুন।
ডেটাম সেট থেকে বহিরাগত ডেটাম অপসারণ করা হবে কিনা তা সিদ্ধান্ত নেওয়ার আগে, অবশ্যই আমাদের চিহ্নিত করতে হবে কোন ডেটামের আউটলাইয়ার হওয়ার সম্ভাবনা রয়েছে। সাধারণভাবে, একটি বহিরাগত একটি ডেটাম যা একটি ড্যাটাম সেটে অন্য ডেটাম থেকে অনেক দূরে চলে যায় - অন্য কথায়, একটি আউটলিয়ার অন্য ডেটামের "বাইরে"। ডেটা টেবিলে বা (বিশেষ করে) গ্রাফে আউটলাইয়ার সনাক্ত করা সাধারণত সহজ। যদি ডেটামের একটি সেট গ্রাফ দিয়ে দৃশ্যত বর্ণনা করা হয়, তাহলে বহিরাগত ডেটাম অন্য ডেটাম থেকে "অনেক দূরে" দেখা যাবে। উদাহরণস্বরূপ, যদি একটি ডেটাম সেটের অধিকাংশ ডেটাম একটি সরলরেখা গঠন করে, তাহলে বহিরাগত ডেটাম যুক্তিসঙ্গতভাবে সেই লাইনটি গঠন হিসাবে ব্যাখ্যা করা হবে না।
আসুন একটি কক্ষের 12 টি ভিন্ন বস্তুর তাপমাত্রা প্রতিনিধিত্বকারী ড্যাটামের একটি সেট দেখি। যদি 11 টি বস্তুর তাপমাত্রা প্রায় 70 ফারেনহাইট (21 ডিগ্রি সেলসিয়াস) থাকে, কিন্তু 12 তম বস্তু, একটি ওভেনের তাপমাত্রা 300 ফারেনহাইট (150 ডিগ্রি সেলসিয়াস) থাকে, তাহলে তাৎক্ষণিকভাবে দেখা যাবে যে ওভেনের তাপমাত্রা খুব সম্ভবত একটি বহিরাগত
ধাপ 2. সর্বনিম্ন থেকে সর্বোচ্চ পর্যন্ত ডেটামের সেটে ডেটামগুলি সাজান।
ডেটাম সেটে আউটলাইয়ার গণনার প্রথম ধাপ হল সেই ডেটাম সেটের মধ্যমা (মধ্যম মান) খুঁজে বের করা। এই কাজটি খুব সহজ হয়ে যায় যদি ডেটামের একটি সেটের ডেটামগুলি ছোট থেকে বড় পর্যন্ত সাজানো হয়। সুতরাং, চালিয়ে যাওয়ার আগে, ডেটামগুলি এমন একটি ডেটাম সেটে সাজান।
আসুন উপরের উদাহরণটি চালিয়ে যাই। এটি আমাদের রুমের বিভিন্ন বস্তুর তাপমাত্রার প্রতিনিধিত্বকারী ড্যাটামগুলির সেট: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}। যদি আমরা ডেটামগুলিকে সর্বনিম্ন থেকে সর্বোচ্চ পর্যন্ত সাজিয়ে রাখি, তাহলে ডেটামের ক্রম হয়ে যাবে: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}।
ধাপ 3. ডেটাম সেটের মধ্যমা গণনা করুন।
ডেটাম সেটের মধ্যমা হল একটি ডেটাম যেখানে ডেটামের বাকি অর্ধেক ডেটামের উপরে থাকে এবং বাকি অর্ধেক তার নীচে থাকে - মূলত, ডেটাম হল ডেটাম যা ডেটাম সেটের "মাঝখানে" থাকে। যদি একটি ডেটাম সেটে ড্যাটের সংখ্যা অদ্ভুত হয়, তাহলে এটি খুঁজে পাওয়া খুব সহজ - মধ্যমা হল সেই ডেটাম যার উপরে এবং নীচে একই সংখ্যা রয়েছে। যাইহোক, যদি ডেটামের সেটে ডেটামের সংখ্যা সমান হয়, তাহলে, যেহেতু কোন ডেটাম মাঝখানে ফিট হয় না, মাঝখানে 2 টি ডেটাম মধ্যম খুঁজে পেতে গড়। এটি লক্ষ্য করা উচিত যে, আউটলাইয়ার গণনা করার সময়, মধ্যমা সাধারণত ভেরিয়েবল Q2-ni নির্ধারিত হয় কারণ Q2 Q1 এবং Q3 এর মধ্যে, নিম্ন এবং উপরের চতুর্ভুজ, যা আমরা পরে আলোচনা করব।
- একটি ড্যাটাম সেট নিয়ে বিভ্রান্ত হবেন না যেখানে ড্যাটামের সংখ্যা এমনকি-2 টি মধ্যম ড্যাটের গড় প্রায়ই এমন একটি সংখ্যা ফেরত দেবে যা ডেটাম সেটে নেই-এটি ঠিক আছে। যাইহোক, যদি 2 টি মধ্যম ডেটাম একই সংখ্যা হয়, গড়, অবশ্যই, একই সংখ্যাও হবে, যা ঠিক আছে।
- উপরের উদাহরণে, আমাদের 12 টি ডেটাম আছে। 2 টি মধ্যম ডেটাম হল যথাক্রমে 6 তম এবং 7 তম ডেটাম -70 এবং 71। সুতরাং, আমাদের ডেটামের সেটের মধ্যমা হল এই 2 সংখ্যার গড়: ((70 + 71) / 2), = 70.5.
ধাপ 4. নিম্ন চতুর্থাংশ গণনা করুন।
এই মান, যা আমরা ভেরিয়েবল Q1 দিই, সেই ডেটাম যা ডেটামের 25 শতাংশ (বা এক চতুর্থাংশ) প্রতিনিধিত্ব করে। অন্য কথায়, এটি ডেটাম যা মধ্যবর্তী নীচের ডেটামগুলিকে বিভক্ত করে। যদি মিডিয়ানের নীচে ড্যাটের সংখ্যা সমান হয়, তাহলে আপনাকে Q1 খুঁজে পেতে আবার মাঝখানে 2 টি ড্যাটামের গড় করতে হবে, যেমনটি আপনি নিজেই মধ্যমা খুঁজে পেতে চান।
আমাদের উদাহরণে, 6 টি ডেটাম রয়েছে যা মধ্যমাটির উপরে এবং 6 টি ডেটাম যা মধ্যমাটির নীচে অবস্থিত। এর মানে হল, নিম্ন চতুর্থাংশ খুঁজে বের করার জন্য, আমাদের মধ্যবর্তী নীচের 6 টি ড্যাটের মাঝখানে 2 টি ড্যাটাম গড় করতে হবে। মধ্যবর্তী নীচের 6 টি ড্যাটের তৃতীয় এবং চতুর্থ ডেটাম উভয়ই 70। সুতরাং, গড় হল ((70 + 70) / 2), = 70 । 70 আমাদের Q1 হয়।
ধাপ 5. উপরের চতুর্থাংশ গণনা করুন।
এই মান, যা আমরা ভেরিয়েবল Q3 দিই, সেই ডেটাম যার উপর ডেটাম সেটে 25 শতাংশ ডেটাম রয়েছে। Q3 খোঁজা Q1 খোঁজার মতোই অনেকটা, এই ক্ষেত্রে, আমরা এই ক্ষেত্রে, মধ্যমাটির উপরে নয়, মধ্যবর্তী উপরে ড্যাটামগুলি দেখছি।
উপরে আমাদের উদাহরণ অব্যাহত রেখে, মধ্যবর্তী উপরের 6 টি ড্যাটের মাঝখানে 2 টি ডেটাম হল 71 এবং 72। এই 2 টি ডেটামের গড় হল ((71 + 72)/2), = 71, 5 । 71, 5 হচ্ছে আমাদের Q3।
ধাপ 6. অন্তর্বর্তী দূরত্ব খুঁজুন।
এখন যেহেতু আমরা Q1 এবং Q3 খুঁজে পেয়েছি, আমাদের এই দুটি ভেরিয়েবলের মধ্যে দূরত্ব গণনা করতে হবে। Q1 থেকে Q3 এর দূরত্ব Q3 থেকে Q1 বিয়োগ করে পাওয়া যায়। অন্তর্বর্তী দূরত্বের জন্য আপনি যে মানগুলি পান তা আপনার ডেটাম সেটে অ-বহিরাগত ড্যাটামের সীমানা নির্ধারণের জন্য খুব গুরুত্বপূর্ণ।
- আমাদের উদাহরণে, Q1 এবং Q3- এর আমাদের মান 70 এবং 71, 5. আন্তquপার্টাইল দূরত্ব খুঁজে পেতে, আমরা Q3 - Q1 = 71.5 - 70 = বিয়োগ করি 1, 5.
- এটি লক্ষ করা উচিত যে এটিও সত্য যদিও Q1, Q3, অথবা উভয়ই negativeণাত্মক সংখ্যা। উদাহরণস্বরূপ, যদি আমাদের Q1 মান -70 হয়, তাহলে আমাদের সঠিক অন্তর্বর্তী দূরত্ব হবে 71.5 -(-70) = 141, 5।
ধাপ 7. ডেটাম সেটে "ভিতরের বেড়া" খুঁজুন।
"ভিতরের বেড়া" এবং "বাইরের বেড়া" নামক সংখ্যার সীমার মধ্যে ডেটাম পড়ে কিনা তা পরীক্ষা করে আউটলাইয়ার পাওয়া যায়। ডেটাম সেটের ভেতরের বেড়ার বাইরে পড়ে এমন একটি ডেটামকে "ছোটখাট বহিরাগত" হিসাবে উল্লেখ করা হয়, যখন বাইরের বেড়ার বাইরে পড়ে এমন একটি ডেটামকে "প্রধান বাহ্যিক" হিসাবে উল্লেখ করা হয় আপনার ডেটাম সেটের ভেতরের বেড়াটি খুঁজে বের করতে, প্রথমে 1, 5 দ্বারা অন্তর্বর্তী দূরত্বকে গুণ করুন, তারপর, Q3 দ্বারা ফলাফল যোগ করুন এবং Q1 থেকে এটি বিয়োগ করুন। আপনি যে দুটি মান পাবেন তা হল আপনার ডেটাম সেটের ভিতরের বেড়া সীমানা।
-
আমাদের উদাহরণে, অন্তর্বর্তী দূরত্ব হল (71.5 - 70), অথবা 1.5। 1.5 কে 1.5 দিয়ে গুণ করুন যার ফলে 2.25 হয়।
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- সুতরাং, আমাদের অভ্যন্তরীণ বেড়ার সীমানা হল 67, 75 এবং 73, 75.
-
আমাদের ডেটামের সেটে, শুধুমাত্র ওভেনের তাপমাত্রা, 300 ফারেনহাইট - এই সীমার বাইরে এবং তাই এই ডেটামটি একটি ছোটখাট বহিরাগত। যাইহোক, আমরা এখনও এই তাপমাত্রা একটি প্রধান বহিরাগত কিনা তা গণনা করি নি, তাই আমরা আমাদের গণনা না করা পর্যন্ত সিদ্ধান্তে ঝাঁপ দেবেন না।
ধাপ 8. ডেটাম সেটে "বাইরের বেড়া" খুঁজুন।
এটি অভ্যন্তরীণ বেড়া খোঁজার মতোই করা হয়, যদি না আন্ত theপার্টাইল দূরত্ব 1.5 এর পরিবর্তে 3 দ্বারা গুণিত হয়।তারপর ফলাফলটি Q3 তে যোগ করা হয় এবং Q1 থেকে বিয়োগ করে বাইরের বেড়ার উপরের এবং নিচের সীমানা খুঁজে বের করা হয়।
-
আমাদের উদাহরণে, অন্তর্বর্তী দূরত্বকে 3 দিয়ে গুণ করলে (1, 5 x 3), অথবা 4, 5 পাওয়া যায়।
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- বাইরের বেড়ার সীমানা হল 65.5 এবং 76.
-
বাইরের বেড়ার সীমানার বাইরে থাকা ডেটামগুলিকে প্রধান বহিরাগত হিসাবে উল্লেখ করা হয়। এই উদাহরণে, ওভেনের তাপমাত্রা, 300 ফারেনহাইট, স্পষ্টভাবে বাইরের বেড়ার বাইরে, তাই এই ডেটামটি "স্পষ্টভাবে" একটি প্রধান বাহ্যিক।
ধাপ 9. বহিরাগত তারিখটি "বাতিল" করা হবে কিনা তা নির্ধারণ করতে গুণগত রায় ব্যবহার করুন।
উপরে বর্ণিত পদ্ধতিটি ব্যবহার করে, এটি নির্ধারণ করা যেতে পারে যে একটি ড্যাটাম একটি ছোটখাট ডেটাম, একটি প্রধান ডেটাম, বা একেবারে বহিরাগত নয়। যাইহোক, কোন ভুল করবেন না - একটি ডেটামকে একটি বহিরাগত হিসাবে খুঁজে বের করা কেবলমাত্র সেই ডেটামটিকে একটি "প্রার্থী" হিসাবে চিহ্নিত করে যা ডেটাম সেট থেকে সরানো হবে, এমন একটি ডেটাম হিসাবে যা "বাতিল" করা উচিত নয়। "কারণ" যা একটি বহিরাগত ডেটামকে ডেটাম সেটে অন্য ড্যাটাম থেকে বিচ্যুত করে তা বাতিল করতে হবে কিনা তা নির্ধারণে খুব গুরুত্বপূর্ণ। সাধারণভাবে, পরিমাপ, রেকর্ডিং বা পরীক্ষামূলক পরিকল্পনায় ত্রুটির কারণে একটি বহিরাগত, উদাহরণস্বরূপ-বাতিল করা যেতে পারে। অন্যদিকে, আউটলাইয়ারগুলি যা ত্রুটির কারণে হয় না এবং যা নতুন তথ্য বা প্রবণতা নির্দেশ করে যা পূর্বে পূর্বাভাস দেওয়া হয়নি সাধারণত বাতিল করা হয়।
- বিবেচনা করার আরেকটি মানদণ্ড হল বহিরাগত একটি ডেটাম সেটের গড়ের উপর একটি বড় প্রভাব ফেলে কিনা, যেমন বহিরাগত এটি বিভ্রান্ত করে বা এটি ভুল দেখায় কিনা। আপনি যদি আপনার ডেটা সেটের গড় থেকে উপসংহার টানতে চান তা বিবেচনা করা খুব গুরুত্বপূর্ণ।
-
আসুন আমাদের উদাহরণটি অধ্যয়ন করি। এই উদাহরণে, যেহেতু অপ্রত্যাশিত প্রাকৃতিক শক্তির মাধ্যমে ওভেন F০০ ফারেনহাইটে পৌঁছেছে বলে "অত্যন্ত" অসম্ভব বলে মনে হয়, তাই আমরা প্রায় নিশ্চিতভাবে বলতে পারি যে ওভেনটি দুর্ঘটনাক্রমে রেখে দেওয়া হয়েছিল, যার ফলে উচ্চ তাপমাত্রার ডেটাম অস্বাভাবিকতা দেখা দেয়। এছাড়াও, যদি আমরা বহিরাগতদের অপসারণ না করি, আমাদের ডেটাম সেট মানে হল (69 + 69 + 70 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 ফারেনহাইট (32 ডিগ্রি সেলসিয়াস), যখন আমরা বহিরাগতদের সরিয়ে ফেলি তখন গড় হল (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 ফারেনহাইট (21 ডিগ্রি সেলসিয়াস)।
যেহেতু এই বহিরাগতরা মানুষের ভুলের কারণে হয়েছিল এবং যেহেতু এটা বলা ভুল হবে যে, ঘরের গড় তাপমাত্রা প্রায় F০ ফারেনহাইট (degrees২ ডিগ্রি সেলসিয়াস) পৌঁছায়, তাই আমাদের বহিরাগতদের "ফেলে দেওয়া" বেছে নেওয়া ভালো।
ধাপ 10. বহিরাগতদের রক্ষণাবেক্ষণের গুরুত্ব (কখনও কখনও) জানুন।
যদিও কিছু বহিরাগতদের ডেটাম সেট থেকে সরিয়ে দেওয়া উচিত কারণ তারা ত্রুটি সৃষ্টি করে এবং/অথবা ফলাফলগুলি ভুল বা ভুল করে, কিছু বহিরাগতদের বজায় রাখা উচিত। যদি, উদাহরণস্বরূপ, একটি বহিরাগত প্রাকৃতিকভাবে অর্জিত বলে মনে হয় (অর্থাৎ, একটি ত্রুটির ফলাফল নয়) এবং/অথবা অধ্যয়নের অধীনে একটি নতুন দৃষ্টিভঙ্গি প্রদান করে, তাহলে বহিরাগতকে ডেটাম সেট থেকে সরানো উচিত নয়। বৈজ্ঞানিক গবেষণা সাধারণত একটি অত্যন্ত সংবেদনশীল পরিস্থিতি যখন এটি বহিরাগতদের ক্ষেত্রে আসে - ভুলভাবে বহিরাগত অপসারণের অর্থ এমন তথ্য বাতিল করা হতে পারে যা একটি নতুন প্রবণতা বা আবিষ্কারকে নির্দেশ করে।