বহিরাগতদের কীভাবে সনাক্ত করবেন: 10 টি ধাপ (ছবি সহ)

সুচিপত্র:

বহিরাগতদের কীভাবে সনাক্ত করবেন: 10 টি ধাপ (ছবি সহ)
বহিরাগতদের কীভাবে সনাক্ত করবেন: 10 টি ধাপ (ছবি সহ)

ভিডিও: বহিরাগতদের কীভাবে সনাক্ত করবেন: 10 টি ধাপ (ছবি সহ)

ভিডিও: বহিরাগতদের কীভাবে সনাক্ত করবেন: 10 টি ধাপ (ছবি সহ)
ভিডিও: কিভাবে নিজের জন্য একটি সেরা White Sneakers কিনবেন | White sneakers guide for men | White Sneakers 2024, মে
Anonim

পরিসংখ্যানের মধ্যে, একটি বহিরাগত বা "বহিরাগত" একটি ডেটাম যা একটি নমুনা বা ডাটামের সেটের মধ্যে অন্য কোন ডেটাম থেকে অনেক দূরে চলে যায় (ডেটামের সেটকে ডেটা বলা হয়)। প্রায়শই, একটি ডেটাম সেটের বহিরাগত পরিসংখ্যানবিদদের একটি অস্বাভাবিকতা বা পরীক্ষামূলক ত্রুটির একটি সতর্কতা হিসাবে পরিমাপে পরিবেশন করতে পারে, যা পরিসংখ্যানবিদকে ডেটাম সেট থেকে বহিরাগতকে সরিয়ে দিতে পারে। যদি পরিসংখ্যানবিদ ডেটাম সেট থেকে বহিরাগতদের সরিয়ে দেন, তাহলে অধ্যয়ন থেকে প্রাপ্ত সিদ্ধান্তগুলি খুব আলাদা হতে পারে। অতএব, পরিসংখ্যানগত ডেটাম সেটের সঠিক উপলব্ধি নিশ্চিত করার জন্য বহিরাগতদের কীভাবে গণনা এবং বিশ্লেষণ করতে হয় তা জানা খুবই গুরুত্বপূর্ণ।

ধাপ

আউটলাইয়ার গণনা করুন ধাপ 1
আউটলাইয়ার গণনা করুন ধাপ 1

ধাপ 1. সম্ভাব্য বহিরাগত ডেটাগুলি কীভাবে সনাক্ত করতে হয় তা শিখুন।

ডেটাম সেট থেকে বহিরাগত ডেটাম অপসারণ করা হবে কিনা তা সিদ্ধান্ত নেওয়ার আগে, অবশ্যই আমাদের চিহ্নিত করতে হবে কোন ডেটামের আউটলাইয়ার হওয়ার সম্ভাবনা রয়েছে। সাধারণভাবে, একটি বহিরাগত একটি ডেটাম যা একটি ড্যাটাম সেটে অন্য ডেটাম থেকে অনেক দূরে চলে যায় - অন্য কথায়, একটি আউটলিয়ার অন্য ডেটামের "বাইরে"। ডেটা টেবিলে বা (বিশেষ করে) গ্রাফে আউটলাইয়ার সনাক্ত করা সাধারণত সহজ। যদি ডেটামের একটি সেট গ্রাফ দিয়ে দৃশ্যত বর্ণনা করা হয়, তাহলে বহিরাগত ডেটাম অন্য ডেটাম থেকে "অনেক দূরে" দেখা যাবে। উদাহরণস্বরূপ, যদি একটি ডেটাম সেটের অধিকাংশ ডেটাম একটি সরলরেখা গঠন করে, তাহলে বহিরাগত ডেটাম যুক্তিসঙ্গতভাবে সেই লাইনটি গঠন হিসাবে ব্যাখ্যা করা হবে না।

আসুন একটি কক্ষের 12 টি ভিন্ন বস্তুর তাপমাত্রা প্রতিনিধিত্বকারী ড্যাটামের একটি সেট দেখি। যদি 11 টি বস্তুর তাপমাত্রা প্রায় 70 ফারেনহাইট (21 ডিগ্রি সেলসিয়াস) থাকে, কিন্তু 12 তম বস্তু, একটি ওভেনের তাপমাত্রা 300 ফারেনহাইট (150 ডিগ্রি সেলসিয়াস) থাকে, তাহলে তাৎক্ষণিকভাবে দেখা যাবে যে ওভেনের তাপমাত্রা খুব সম্ভবত একটি বহিরাগত

আউটলাইয়ার গণনা করুন ধাপ 2
আউটলাইয়ার গণনা করুন ধাপ 2

ধাপ 2. সর্বনিম্ন থেকে সর্বোচ্চ পর্যন্ত ডেটামের সেটে ডেটামগুলি সাজান।

ডেটাম সেটে আউটলাইয়ার গণনার প্রথম ধাপ হল সেই ডেটাম সেটের মধ্যমা (মধ্যম মান) খুঁজে বের করা। এই কাজটি খুব সহজ হয়ে যায় যদি ডেটামের একটি সেটের ডেটামগুলি ছোট থেকে বড় পর্যন্ত সাজানো হয়। সুতরাং, চালিয়ে যাওয়ার আগে, ডেটামগুলি এমন একটি ডেটাম সেটে সাজান।

আসুন উপরের উদাহরণটি চালিয়ে যাই। এটি আমাদের রুমের বিভিন্ন বস্তুর তাপমাত্রার প্রতিনিধিত্বকারী ড্যাটামগুলির সেট: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}। যদি আমরা ডেটামগুলিকে সর্বনিম্ন থেকে সর্বোচ্চ পর্যন্ত সাজিয়ে রাখি, তাহলে ডেটামের ক্রম হয়ে যাবে: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}।

আউটলাইয়ার গণনা করুন ধাপ 3
আউটলাইয়ার গণনা করুন ধাপ 3

ধাপ 3. ডেটাম সেটের মধ্যমা গণনা করুন।

ডেটাম সেটের মধ্যমা হল একটি ডেটাম যেখানে ডেটামের বাকি অর্ধেক ডেটামের উপরে থাকে এবং বাকি অর্ধেক তার নীচে থাকে - মূলত, ডেটাম হল ডেটাম যা ডেটাম সেটের "মাঝখানে" থাকে। যদি একটি ডেটাম সেটে ড্যাটের সংখ্যা অদ্ভুত হয়, তাহলে এটি খুঁজে পাওয়া খুব সহজ - মধ্যমা হল সেই ডেটাম যার উপরে এবং নীচে একই সংখ্যা রয়েছে। যাইহোক, যদি ডেটামের সেটে ডেটামের সংখ্যা সমান হয়, তাহলে, যেহেতু কোন ডেটাম মাঝখানে ফিট হয় না, মাঝখানে 2 টি ডেটাম মধ্যম খুঁজে পেতে গড়। এটি লক্ষ্য করা উচিত যে, আউটলাইয়ার গণনা করার সময়, মধ্যমা সাধারণত ভেরিয়েবল Q2-ni নির্ধারিত হয় কারণ Q2 Q1 এবং Q3 এর মধ্যে, নিম্ন এবং উপরের চতুর্ভুজ, যা আমরা পরে আলোচনা করব।

  • একটি ড্যাটাম সেট নিয়ে বিভ্রান্ত হবেন না যেখানে ড্যাটামের সংখ্যা এমনকি-2 টি মধ্যম ড্যাটের গড় প্রায়ই এমন একটি সংখ্যা ফেরত দেবে যা ডেটাম সেটে নেই-এটি ঠিক আছে। যাইহোক, যদি 2 টি মধ্যম ডেটাম একই সংখ্যা হয়, গড়, অবশ্যই, একই সংখ্যাও হবে, যা ঠিক আছে।
  • উপরের উদাহরণে, আমাদের 12 টি ডেটাম আছে। 2 টি মধ্যম ডেটাম হল যথাক্রমে 6 তম এবং 7 তম ডেটাম -70 এবং 71। সুতরাং, আমাদের ডেটামের সেটের মধ্যমা হল এই 2 সংখ্যার গড়: ((70 + 71) / 2), = 70.5.
আউটলাইয়ার গণনা করুন ধাপ 4
আউটলাইয়ার গণনা করুন ধাপ 4

ধাপ 4. নিম্ন চতুর্থাংশ গণনা করুন।

এই মান, যা আমরা ভেরিয়েবল Q1 দিই, সেই ডেটাম যা ডেটামের 25 শতাংশ (বা এক চতুর্থাংশ) প্রতিনিধিত্ব করে। অন্য কথায়, এটি ডেটাম যা মধ্যবর্তী নীচের ডেটামগুলিকে বিভক্ত করে। যদি মিডিয়ানের নীচে ড্যাটের সংখ্যা সমান হয়, তাহলে আপনাকে Q1 খুঁজে পেতে আবার মাঝখানে 2 টি ড্যাটামের গড় করতে হবে, যেমনটি আপনি নিজেই মধ্যমা খুঁজে পেতে চান।

আমাদের উদাহরণে, 6 টি ডেটাম রয়েছে যা মধ্যমাটির উপরে এবং 6 টি ডেটাম যা মধ্যমাটির নীচে অবস্থিত। এর মানে হল, নিম্ন চতুর্থাংশ খুঁজে বের করার জন্য, আমাদের মধ্যবর্তী নীচের 6 টি ড্যাটের মাঝখানে 2 টি ড্যাটাম গড় করতে হবে। মধ্যবর্তী নীচের 6 টি ড্যাটের তৃতীয় এবং চতুর্থ ডেটাম উভয়ই 70। সুতরাং, গড় হল ((70 + 70) / 2), = 70 । 70 আমাদের Q1 হয়।

আউটলাইয়ার গণনা করুন ধাপ 5
আউটলাইয়ার গণনা করুন ধাপ 5

ধাপ 5. উপরের চতুর্থাংশ গণনা করুন।

এই মান, যা আমরা ভেরিয়েবল Q3 দিই, সেই ডেটাম যার উপর ডেটাম সেটে 25 শতাংশ ডেটাম রয়েছে। Q3 খোঁজা Q1 খোঁজার মতোই অনেকটা, এই ক্ষেত্রে, আমরা এই ক্ষেত্রে, মধ্যমাটির উপরে নয়, মধ্যবর্তী উপরে ড্যাটামগুলি দেখছি।

উপরে আমাদের উদাহরণ অব্যাহত রেখে, মধ্যবর্তী উপরের 6 টি ড্যাটের মাঝখানে 2 টি ডেটাম হল 71 এবং 72। এই 2 টি ডেটামের গড় হল ((71 + 72)/2), = 71, 5 । 71, 5 হচ্ছে আমাদের Q3।

আউটলাইয়ার গণনা করুন ধাপ 6
আউটলাইয়ার গণনা করুন ধাপ 6

ধাপ 6. অন্তর্বর্তী দূরত্ব খুঁজুন।

এখন যেহেতু আমরা Q1 এবং Q3 খুঁজে পেয়েছি, আমাদের এই দুটি ভেরিয়েবলের মধ্যে দূরত্ব গণনা করতে হবে। Q1 থেকে Q3 এর দূরত্ব Q3 থেকে Q1 বিয়োগ করে পাওয়া যায়। অন্তর্বর্তী দূরত্বের জন্য আপনি যে মানগুলি পান তা আপনার ডেটাম সেটে অ-বহিরাগত ড্যাটামের সীমানা নির্ধারণের জন্য খুব গুরুত্বপূর্ণ।

  • আমাদের উদাহরণে, Q1 এবং Q3- এর আমাদের মান 70 এবং 71, 5. আন্তquপার্টাইল দূরত্ব খুঁজে পেতে, আমরা Q3 - Q1 = 71.5 - 70 = বিয়োগ করি 1, 5.
  • এটি লক্ষ করা উচিত যে এটিও সত্য যদিও Q1, Q3, অথবা উভয়ই negativeণাত্মক সংখ্যা। উদাহরণস্বরূপ, যদি আমাদের Q1 মান -70 হয়, তাহলে আমাদের সঠিক অন্তর্বর্তী দূরত্ব হবে 71.5 -(-70) = 141, 5।
আউটলাইয়ার গণনা করুন ধাপ 7
আউটলাইয়ার গণনা করুন ধাপ 7

ধাপ 7. ডেটাম সেটে "ভিতরের বেড়া" খুঁজুন।

"ভিতরের বেড়া" এবং "বাইরের বেড়া" নামক সংখ্যার সীমার মধ্যে ডেটাম পড়ে কিনা তা পরীক্ষা করে আউটলাইয়ার পাওয়া যায়। ডেটাম সেটের ভেতরের বেড়ার বাইরে পড়ে এমন একটি ডেটামকে "ছোটখাট বহিরাগত" হিসাবে উল্লেখ করা হয়, যখন বাইরের বেড়ার বাইরে পড়ে এমন একটি ডেটামকে "প্রধান বাহ্যিক" হিসাবে উল্লেখ করা হয় আপনার ডেটাম সেটের ভেতরের বেড়াটি খুঁজে বের করতে, প্রথমে 1, 5 দ্বারা অন্তর্বর্তী দূরত্বকে গুণ করুন, তারপর, Q3 দ্বারা ফলাফল যোগ করুন এবং Q1 থেকে এটি বিয়োগ করুন। আপনি যে দুটি মান পাবেন তা হল আপনার ডেটাম সেটের ভিতরের বেড়া সীমানা।

  • আমাদের উদাহরণে, অন্তর্বর্তী দূরত্ব হল (71.5 - 70), অথবা 1.5। 1.5 কে 1.5 দিয়ে গুণ করুন যার ফলে 2.25 হয়।

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • সুতরাং, আমাদের অভ্যন্তরীণ বেড়ার সীমানা হল 67, 75 এবং 73, 75.
  • আমাদের ডেটামের সেটে, শুধুমাত্র ওভেনের তাপমাত্রা, 300 ফারেনহাইট - এই সীমার বাইরে এবং তাই এই ডেটামটি একটি ছোটখাট বহিরাগত। যাইহোক, আমরা এখনও এই তাপমাত্রা একটি প্রধান বহিরাগত কিনা তা গণনা করি নি, তাই আমরা আমাদের গণনা না করা পর্যন্ত সিদ্ধান্তে ঝাঁপ দেবেন না।

    আউটলাইয়ার ধাপ 7 বুলেট 2 গণনা করুন
    আউটলাইয়ার ধাপ 7 বুলেট 2 গণনা করুন
আউটলাইয়ার গণনা ধাপ 8
আউটলাইয়ার গণনা ধাপ 8

ধাপ 8. ডেটাম সেটে "বাইরের বেড়া" খুঁজুন।

এটি অভ্যন্তরীণ বেড়া খোঁজার মতোই করা হয়, যদি না আন্ত theপার্টাইল দূরত্ব 1.5 এর পরিবর্তে 3 দ্বারা গুণিত হয়।তারপর ফলাফলটি Q3 তে যোগ করা হয় এবং Q1 থেকে বিয়োগ করে বাইরের বেড়ার উপরের এবং নিচের সীমানা খুঁজে বের করা হয়।

  • আমাদের উদাহরণে, অন্তর্বর্তী দূরত্বকে 3 দিয়ে গুণ করলে (1, 5 x 3), অথবা 4, 5 পাওয়া যায়।

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • বাইরের বেড়ার সীমানা হল 65.5 এবং 76.
  • বাইরের বেড়ার সীমানার বাইরে থাকা ডেটামগুলিকে প্রধান বহিরাগত হিসাবে উল্লেখ করা হয়। এই উদাহরণে, ওভেনের তাপমাত্রা, 300 ফারেনহাইট, স্পষ্টভাবে বাইরের বেড়ার বাইরে, তাই এই ডেটামটি "স্পষ্টভাবে" একটি প্রধান বাহ্যিক।

    Outliers ধাপ 8 বুলেট 2 গণনা করুন
    Outliers ধাপ 8 বুলেট 2 গণনা করুন
আউটলাইয়ার গণনা করুন ধাপ 9
আউটলাইয়ার গণনা করুন ধাপ 9

ধাপ 9. বহিরাগত তারিখটি "বাতিল" করা হবে কিনা তা নির্ধারণ করতে গুণগত রায় ব্যবহার করুন।

উপরে বর্ণিত পদ্ধতিটি ব্যবহার করে, এটি নির্ধারণ করা যেতে পারে যে একটি ড্যাটাম একটি ছোটখাট ডেটাম, একটি প্রধান ডেটাম, বা একেবারে বহিরাগত নয়। যাইহোক, কোন ভুল করবেন না - একটি ডেটামকে একটি বহিরাগত হিসাবে খুঁজে বের করা কেবলমাত্র সেই ডেটামটিকে একটি "প্রার্থী" হিসাবে চিহ্নিত করে যা ডেটাম সেট থেকে সরানো হবে, এমন একটি ডেটাম হিসাবে যা "বাতিল" করা উচিত নয়। "কারণ" যা একটি বহিরাগত ডেটামকে ডেটাম সেটে অন্য ড্যাটাম থেকে বিচ্যুত করে তা বাতিল করতে হবে কিনা তা নির্ধারণে খুব গুরুত্বপূর্ণ। সাধারণভাবে, পরিমাপ, রেকর্ডিং বা পরীক্ষামূলক পরিকল্পনায় ত্রুটির কারণে একটি বহিরাগত, উদাহরণস্বরূপ-বাতিল করা যেতে পারে। অন্যদিকে, আউটলাইয়ারগুলি যা ত্রুটির কারণে হয় না এবং যা নতুন তথ্য বা প্রবণতা নির্দেশ করে যা পূর্বে পূর্বাভাস দেওয়া হয়নি সাধারণত বাতিল করা হয়।

  • বিবেচনা করার আরেকটি মানদণ্ড হল বহিরাগত একটি ডেটাম সেটের গড়ের উপর একটি বড় প্রভাব ফেলে কিনা, যেমন বহিরাগত এটি বিভ্রান্ত করে বা এটি ভুল দেখায় কিনা। আপনি যদি আপনার ডেটা সেটের গড় থেকে উপসংহার টানতে চান তা বিবেচনা করা খুব গুরুত্বপূর্ণ।
  • আসুন আমাদের উদাহরণটি অধ্যয়ন করি। এই উদাহরণে, যেহেতু অপ্রত্যাশিত প্রাকৃতিক শক্তির মাধ্যমে ওভেন F০০ ফারেনহাইটে পৌঁছেছে বলে "অত্যন্ত" অসম্ভব বলে মনে হয়, তাই আমরা প্রায় নিশ্চিতভাবে বলতে পারি যে ওভেনটি দুর্ঘটনাক্রমে রেখে দেওয়া হয়েছিল, যার ফলে উচ্চ তাপমাত্রার ডেটাম অস্বাভাবিকতা দেখা দেয়। এছাড়াও, যদি আমরা বহিরাগতদের অপসারণ না করি, আমাদের ডেটাম সেট মানে হল (69 + 69 + 70 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 ফারেনহাইট (32 ডিগ্রি সেলসিয়াস), যখন আমরা বহিরাগতদের সরিয়ে ফেলি তখন গড় হল (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 ফারেনহাইট (21 ডিগ্রি সেলসিয়াস)।

    যেহেতু এই বহিরাগতরা মানুষের ভুলের কারণে হয়েছিল এবং যেহেতু এটা বলা ভুল হবে যে, ঘরের গড় তাপমাত্রা প্রায় F০ ফারেনহাইট (degrees২ ডিগ্রি সেলসিয়াস) পৌঁছায়, তাই আমাদের বহিরাগতদের "ফেলে দেওয়া" বেছে নেওয়া ভালো।

আউটলাইয়ার গণনা করুন ধাপ 10
আউটলাইয়ার গণনা করুন ধাপ 10

ধাপ 10. বহিরাগতদের রক্ষণাবেক্ষণের গুরুত্ব (কখনও কখনও) জানুন।

যদিও কিছু বহিরাগতদের ডেটাম সেট থেকে সরিয়ে দেওয়া উচিত কারণ তারা ত্রুটি সৃষ্টি করে এবং/অথবা ফলাফলগুলি ভুল বা ভুল করে, কিছু বহিরাগতদের বজায় রাখা উচিত। যদি, উদাহরণস্বরূপ, একটি বহিরাগত প্রাকৃতিকভাবে অর্জিত বলে মনে হয় (অর্থাৎ, একটি ত্রুটির ফলাফল নয়) এবং/অথবা অধ্যয়নের অধীনে একটি নতুন দৃষ্টিভঙ্গি প্রদান করে, তাহলে বহিরাগতকে ডেটাম সেট থেকে সরানো উচিত নয়। বৈজ্ঞানিক গবেষণা সাধারণত একটি অত্যন্ত সংবেদনশীল পরিস্থিতি যখন এটি বহিরাগতদের ক্ষেত্রে আসে - ভুলভাবে বহিরাগত অপসারণের অর্থ এমন তথ্য বাতিল করা হতে পারে যা একটি নতুন প্রবণতা বা আবিষ্কারকে নির্দেশ করে।

প্রস্তাবিত: