نمونه برداری در علم داده چیست؟

نمونه برداری در علم داده چیست؟

سناریویی وجود دارد که حتما خیلی از شما با آن آشنا هستید. یک مجموعه داده نسبتاً بزرگ را دانلود می‌کنید و با هیجان شروع به تجزیه و تحلیل آن و ساختن مدل یادگیری ماشین خود می‌کنید و ناگهان یک ضربه محکم و ناگهانی! دستگاه شما هنگام تلاش برای لود مجموعه داده، خطای «خارج از حافظه» می‌دهد.

این موضوع، حتی برای بهترین‌های ما نیز اتفاق افتاده است و یکی از بزرگترین موانعی است که ما در علم داده با آن روبرو هستیم . برخورد با حجم عظیمی از داده‌ها در ماشین‌های محاسباتی محدود (همه ما قدرت منابع گوگل را نداریم!).  پس چگونه می توانیم بر این مشکل همیشگی غلبه کنیم؟ آیا راهی برای انتخاب زیرمجموعه‌ای از داده‌ها و تجزیه و تحلیل آن وجود دارد که نماینده خوبی از کل مجموعه داده باشد؟

بله! و به آن روش نمونه برداری گفته می‌شود. به احتمال خیلی زیاد، شما در دوران مدرسه/دانشگاه و شاید حتی در حرفه‌ی خود با این اصطلاح برخورد کرده‌اید. نمونه برداری (نمونه گیری یا sampling)، روشی عالی برای انتخاب زیرمجموعه‌ای از داده‌ها و تجزیه و تحلیل آن است. اما آیا باید هر زیر مجموعه‌ای را به صورت تصادفی انتخاب کنیم؟

از آن‌جایی که نمونه برداری جزء ضروری هر پروژه تحقیقاتی است، برای نتیجه‌گیری معتبر از نتایج خود، باید با دقت تصمیم بگیریم که چگونه نمونه‌ای را انتخاب کنیم که نماینده کل جمعیت باشد. روش نمونه‌برداری مناسب می‌تواند اعتبار تحقیق شما را بالا ببرد یا از بین ببرد. بنابراین، انتخاب روش مناسب برای مسئله خاص شما ضروری است. همچنین می‌دانید که اساس علم داده، گرفتن داده‌های نمونه با کیفیت خوب است. ما همیشه پارامترهای جمعیت را از نمونه استخراج می‌کنیم. اگر داده‌های نمونه‌ای که روی آن‌ها کار کرده‌ایم به طور دقیق جمعیت را نشان ندهند، مدل‌های یادگیری ماشین ما نتایج مطلوبی را به همراه نخواهد داشت. 

نمونه‌برداری، روشی عالی برای انتخاب زیرمجموعه‌ای از داده‌ها

در این مقاله، ما نگاهی دقیق‌ به نمونه برداری، مزایا و چالش های نمونه برداری و فرایند نمونه برداری خواهیم داشت. بنابراین، چه یک محقق باتجربه باشید و چه تازه سفر خود را شروع کرده‌ باشید، این مقاله برای شما خواندنی است!

نمونه برداری چیست؟

در نمونه برداری، گروهی از افراد را از جامعه موردنظر انتخاب می‌کنیم. این گروه از افراد یک نمونه را تشکیل می‌دهند. چرا؟ از آنجایی که جمعیت زیاد است (مثلاً همه مردم کشور)، مطالعه تک تک افراد جمعیت امکان‌پذیر نخواهد بود و برای اینکه آن را مدیریت کنیم، افرادی را انتخاب می‌کنیم که نماینده جمعیت هستند. با مطالعه و تجزیه و تحلیل این نمونه می‌توانیم پارامترهای جامعه اصلی را مشخص کنیم. در یادگیری ماشین، تمام مدل‌هایی که می‌سازیم بر اساس تحلیل نمونه است. سپس نتیجه می‌گیریم که اگر نمونه را به درستی انتخاب نکنیم، مدل به درستی یاد نمی‌گیرد.

قبل از بررسی روش‌های نمونه برداری، بیایید اصطلاحات کلیدی نمونه برداری را یاد بگیریم: جمعیت، چارچوب نمونه‌، نمونه و اندازه‌ی نمونه.

نمونه، چارچوب نمونه‌ و جمعیت - اصطلاحات مهم نمونه برداری

 

عنوان تبلیغ: تحلیلگر داده شو

جمعیت (Population)

جمعیت را می‌توان بر اساس موقعیت جغرافیایی، سن، درآمد یا بسیاری از ویژگی‌های دیگر تعریف کرد. جمعیت ممکن است بسیار گسترده یا کاملاً محدود باشد. برای مثال، شاید بخواهید در مورد کل جمعیت بزرگسال کشورتان تحقیق کنید، یا شاید تحقیقات شما بر روی مشتریان یک شرکت خاص، بیماران با شرایط سلامتی خاص یا دانش آموزان یک مدرسه متمرکز باشد. مهم است که جمعیت را با توجه به هدف و موارد عملی پروژه خود به دقت تعریف کنید. اگر جمعیت بسیار بزرگ، از نظر جمعیتی مختلط و از نظر جغرافیایی پراکنده باشد، ممکن است دسترسی به یک نمونه نماینده دشوار باشد. فقدان نمونه نماینده، اعتبار نتایج شما را تحت تأثیر قرار می‌دهد و می تواند منجر به سوگیری های تحقیقاتی متعدد، به ویژه سوگیری نمونه برداری شود.

نمونه گروه خاصی از افراد است که داده‌ها را از آن‌ها جمع آوری خواهید کرد.

مفهوم جمعیت و نمونه در نمونه برداری از داده ها

چارچوب نمونه (Sampling frame)

چارچوب نمونه‌، فهرست واقعی افرادی است که نمونه از آنها گرفته می‌شود، که در حالت ایده‌آل، باید کل جمعیت هدف را شامل شود. برای مثال، فرض کنید شما در حال تحقیق در مورد شرایط کاری در یک شرکت بازاریابی رسانه‌های اجتماعی هستید. در این‌جا، جمعیت همه 1000 کارمند شرکت است و چارچوب نمونه، پایگاه داده منابع انسانی شرکت است که نام و اطلاعات تماس هر کارمند در آن قرار دارد.

اندازه‌ی نمونه

تعداد افرادی که باید در نمونه خود بگنجانید به عوامل مختلفی از جمله اندازه و تنوع جامعه و طرح تحقیق شما بستگی دارد. بسته به آنچه می‌خواهید با تجزیه و تحلیل آماری به دست آورید، فرمول‌های محاسبه اندازه نمونه متفاوتی وجود دارد.

مزایا و چالش‌های نمونه برداری

نمونه برداری داده ها روشی مؤثر برای تجزیه و تحلیل داده ها است که با مزایای مختلف و همچنین چالش‌های کمی همراه است.

مزایای نمونه برداری داده ها

  • افزایش سرعت: نمونه‌برداری در مورد مجموعه‌های داده‌ای حجیم، بسیار کارآمد است. برای نمونه، در برنامه‌های کاربردی تجزیه و تحلیل داده‌های حجیم یا نظرسنجی‌ها، شناسایی و تجزیه و تحلیل یک نمونه نماینده، نیاز به زمان کمتری نسبت به بررسی کامل داده‌ها یا جمعیت دارد.
  • کاهش هزینه: نمونه‌برداری داده‌ها معمولاً اقتصادی‌تر از جمع‌آوری داده‌ها از تمام جمعیت است.
  • بهبود دقت: تکنیک‌های نمونه‌برداری صحیح می‌توانند اطلاعات قابل اعتمادی ارائه دهند. انتخاب یک نمونه نماینده توسط محققان، به انتقال اطلاعات مربوط به کل جمعیت به صورت دقیق کمک می‌کند. یک نمونه ممکن است دقت لازم را داشته باشد اگر افراد میدانی آموزش‌دیده را برای جمع‌آوری مشاهدات و نظارت علمی بر سوگیری‌ها و حذف آن‌ها، بهره‌بری کنیم.
  • انعطاف‌پذیری: نمونه‌برداری امکان انتخاب نمونه‌ای را برای پژوهشگران فراهم می‌کند که بهترین جواب به سؤالات پژوهشی خود را با توجه به اندازه داده موردنیاز و منابع موجود انتخاب کنند.
  • کاهش تعصب: نمونه‌برداری به کاهش سوگیری در تجزیه و تحلیل داده‌ها کمک می‌کند. یک نمونه مناسب می‌تواند تأثیر نقاط پراکنده، خطاها و سایر انواع سوگیری را کاهش دهد.
  • یک نکته مهم برای در نظر گرفتن این است که اندازه نمونه و خطای نمونه‌برداری بستگی به موارد مختلف دارد. گاهی اوقات نمونه کوچک می‌تواند اطلاعات کلیدی را ارائه دهد، در حالی که در دیگر موارد، استفاده از نمونه بزرگ‌تر ممکن است دقت تحلیل را افزایش دهد، با این وجود باید به این نکته توجه داشت که افزایش اندازه نمونه ممکن است پیچیدگی تفسیر را افزایش دهد.

چالش‌های نمونه برداری داده ها

  • خطر سوگیری. یکی از چالش‌های اصلی نمونه‌برداری داده‌ها، امکان وارد کردن سوگیری به نمونه است. اگر نمونه معرف جامعه نباشد، می تواند منجر به نتایج نادرست یا گمراه کننده شود.
  • تعیین حجم نمونه. با نمونه‌برداری داده‌ها، گاهی اوقات تعیین حجم نمونه مناسب می‌تواند دشوار باشد. اگر حجم نمونه خیلی کوچک باشد، نتایج ممکن است دقیق نباشد زیرا نمونه نماینده جامعه نخواهد بود.
  • خطای نمونه‌برداری. نمونه‌برداری داده‌ها می‌تواند خطر خطای نمونه‌برداری را نیز به همراه داشته باشد، که همان اختلاف بین نمونه و جامعه است. صحت نتایج ممکن است تحت تأثیر این عدم دقت قرار گیرد، که ممکن است به طور تصادفی، سوگیری یا عوامل دیگر رخ دهد.
  • روش نمونه‌برداری. انتخاب روش نمونه‌برداری بسته به سوال تحقیق و جامعه مورد مطالعه می تواند متفاوت باشد. با این حال، انتخاب روش نمونه‌برداری مناسب می‌تواند دشوار باشد، زیرا بعضی تکنیک‌ها برای پرسش‌ها و جمعیت‌های مختلف پژوهشی می‌توانند مناسب‌تر باشند.

خطا در انتخاب نمونه

انتخاب نمونه‌ای که نشان‌دهنده و نماینده جمعیت باشد، برای حل مشکلات کسب و کار بسیار مهم است. در اینجا برخی از خطاهای موجود آورده شده است:

  • اشتباهات ناشی از کسب و کارهای چرخه‌ای: اگر قصد ما بررسی رفتارهای خرید افراد است، نمونه برداری در حوالی عید نوروز منجربه نمونه‌ای خواهد شد که نشان دهنده رفتار کلی نخواهد بود.
  • خطای مشخصات: اگر مطالعه در مورد فروش اسباب‌بازی‌ها باشد و ما فقط از مادران نظرسنجی کنیم، ممکن است دقیق نباشد زیرا کودکان بر رفتار خرید تأثیر می‌گذارند.
  • خطای چارچوب نمونه: این خطا زمانی رخ می‌دهد که زیرجمعیت اشتباهی را انتخاب کنیم. به عنوان مثال، فرض کنید که مطالعه ما این باشد که باید بررسی کنیم که آیا جمعیت، طرفدار سیاست جدیدی هستند که در هند معرفی شده است. ما از همه کسانی که انگلیسی صحبت می کنند نظرسنجی می‌کنیم که این ممکن است دقیق نباشد زیرا 90٪ از جمعیت کشور، انگلیسی صحبت نمی‌کنند.

فرآیند نمونه برداری 

فرآیند نمونه‌برداری در علم داده
  1. تعریف جامعه هدف: بر اساس هدف مطالعه، جامعه هدف را به وضوح مشخص کنید. به عنوان مثال، اگر ما در حال مطالعه یک انتخابات منطقه‌ای هستیم، جمعیت هدف همه افرادی هستند که در منطقه ساکن و واجد شرایط رای دادن هستند.
  2. تعریف چارچوب نمونه‌: چارچوب نمونه‌، اعضای قابل دسترس از کل جمعیت است. در مثال فوق، چارچوب نمونه‌ شامل تمام افرادی از جامعه است که در ایالت هستند و می‌توانند در مطالعه شرکت کنند.
  3. انتخاب روش نمونه‌برداری: بعد از مشخص کردن قاب یا چارچوب نمونه‌، قدم بعدی انتخاب یک تکنیک نمونه برداری مناسب است، که در بخش بعدی به تفصیل به این موضوع خواهیم پرداخت.
  4. تعیین حجم نمونه: برای اطمینان از اینکه نمونه‌ای بی طرفانه، عاری از خطا و نماینده دقیق کل جامعه داشته باشیم، نمونه ما باید اندازه مناسبی داشته باشد. اندازه مناسب چیست؟ خوب، این به عواملی مانند پیچیدگی جمعیت مورد مطالعه، منابع محقق و محدودیت‌های مرتبط بستگی دارد. همچنین، مهم است که به خاطر داشته باشید که همه افرادی که برای مطالعه به آنها مراجعه می‌کنیم، پاسخ نمی‌دهند. که برای رفع این مشکل، محققان پیشنهاد می‌کنند که باید تعداد افرادی را که در ابتدا به آنها نزدیک می‌شویم، تا 50 درصد افزایش دهیم تا نرخ عدم پاسخ پوشش داده شود.
  5. جمع‌آوری داده‌ها: جمع‌آوری داده‌ها برای حل پرونده تجاری بسیار مهم است. ما باید تلاش کنیم تا اطمینان حاصل کنیم که فیلدهای خالی زیادی در داده‌های خود نداشته باشیم و دلایل را در مواردی که داده گم شده است، مستند کنیم. این به تجزیه و تحلیل کمک می کند، زیرا به ما دیدگاهی در مورد نحوه برخورد با داده‌های گم شده هنگام انجام تجزیه و تحلیل می‌دهد.
  6. ارزیابی نرخ پاسخ: نظارت دقیق بر نرخ پاسخ برای اطمینان از ایجاد تغییرات به موقع در رویکرد جمع‌آوری نمونه و اطمینان از دستیابی به مجموعه نمونه تعیین شده، بسیار مهم است.

👈 برای یادگیری اصول و روش های نمونه برداری به کمک مجموعه داده های واقعی، به دوره‌ی آموزشی نمونه برداری در پایتون مراجعه کنید.

کاربردهای نمونه برداری در صنعت

در این بخش، کاربردهایی از نمونه برداری در صنعت را مطرح می‌کنیم که دانش و درک از تکنیک‌های نمونه برداری برای انجام آن‌ها حیاتی است.

1. اعتبارسنجی فرض از طریق تحقیقات بازار

فرض کنید شرکت شما می خواهد یک سرویس اشتراک دوچرخه راه اندازی کند. این سرویس متکی به افرادی است که گوشی های هوشمند با باتری های شارژ شده کافی و فضای حافظه تلفن همراه کافی دارند. اکنون می‌خواهید اندازه بازار را ارزیابی کنید. برای انجام این کار، باید نمونه ای دریافت کنید که نشان دهنده افراد از سطوح مختلف درآمد، افراد نیازمند به تحرک بیشتر، دسترسی به تلفن همراه و فضای داده‌، متمایل به اتخاذ مدل اشتراک دوچرخه و غیره باشد. با انجام این کار، می توانید به یک برآورد منطقی از اندازه کلی بازار پیشنهاد دهید.

2. کنترل کیفیت

کنترل کیفیت به طور گسترده در صنعت تولید استفاده می‌شود. فرض کنید می خواهید کیفیت محصولات تولید شده در یک کارخانه را بررسی کنید و این شرکت 1 میلیون محصول در ماه تولید می کند. در این مورد، تضمین کیفیت حیاتی است. با این حال، ممکن است امکان بررسی هر محصول تولید شده وجود نداشته باشد. بنابراین شرکت نسبتی را از هر دسته نمونه برداری می کند و بر اساس نتایج، کیفیت کل کیفیت تولید شده را استنباط می‌کند.

3. توسعه محصول جدید

فرض کنید در حال کار روی یک سرویس جدید هستید، مثلاً یک سرویس جدید به اشتراک گذاری دوچرخه. روند معمولی که باید دنبال شود شامل چهار مرحله است:

  1. ایجاد مفهوم و آزمایش
  2. Pilot testing
  3. Beta testing
  4. راه اندازی

در اکثر این مراحل، شما می توانید به خوبی از تکنیک‌های نمونه برداری استفاده کنید. در واقع، شما می‌خواهید با مطالعه پاسخ‌های نمونه، درباره کل جمعیت استنباط کنید و این امری حیاتی است تا شما از هرگونه سوگیری و عدم نمایش جمعیت در نمونه دور شوید.

  • ایجاد مفهوم: قبل از شروع توسعه، ممکن است بخواهید از جذابیت چنین پیشنهادی مطلع شوید. ما می توانیم این کار را با درخواست از چند کاربر احتمالی چنین سرویسی انجام دهیم. با این حال، یک رویکرد بهتر این است که به طور علمی در مورد مردم نظرسنجی شود. به این ترتیب، می‌توانید اطمینان حاصل کنید که از همه گروه‌ها، چه آن‌هایی که با روش‌های جدیدتر حمل‌ونقل راحت هستند و چه آن‌هایی که دلهره دارند، نماینده دریافت می‌کنید. شاید بخواهید بدانید چه کسانی حاضرند برای چنین خدماتی هزینه کنند. در حین تفسیر یافته‌ها، می‌توان اطمینان حاصل کرد که هر قشری از جامعه در نمونه نماینده دارند و همچنین افراد کافی از هر قشر وجود دارد. این منجر به بازخورد معنی‌دار می‌شود و دامنه اعتماد کاذبی را که ممکن است به دست آورید، از بین می‌برد.
  • Pilot testing: این مرحله درست قبل از راه‌اندازی بتا است و می‌خواهید تا حد امکان بازخورد را در نظر بگیرید. در اینجا، با استفاده از همان اصول مطرح شده در بالا، می توانید با اطمینان از اینکه الگوهای فرهنگی و رفتاری مطالعه خود را در نظر گرفته‌اید، با استفاده از تکنیک های نمونه برداری، بازخورد مفیدی بدست آورید.

اکنون که درک کاملی از فرآیند نمونه برداری داریم، بیایید تکنیک‌های نمونه برداری را بررسی کنیم. در مقاله‌ی انواع روش های نمونه برداری، به لیست تکنیک‌های نمونه برداری به همراه مثال خواهیم پرداخت.

از بهترین نوشته‌های کاربران سکان آکادمی در سکان پلاس


online-support-icon