Business IntelligenceData Preprocessing

پاکسازی داده ها Data Cleansing

پاکسازی داده ها به عملیاتی که به برطرف شدن مشکل کیفیت داده ها می انجامد
Data Cleansing

پاکسازی داده ها Data Cleansing  :

یکی از مراحل مهم در آماده سازی داده ها ، مرحله پاکسازی داده ها می باشد.در واقع یکی از مشکلات شایع داده ها پایین بودن کیفیت آنهاست ،به عملیاتی که به برطرف شدن مشکل کیفیت داده ها می انجامد پاکسازی داده ها گفته می شود. ابتدا باید با انواع مشکلاتی که کیفیت داده را به مخاطره می اندازد آشنا شویم و سپس یاد بگیریم که چگونه این مشکلات را شناسایی و در نهایت آنها را برطرف کنیم.

 مشکلاتی که کیفیت داده را به مخاطره می اندازد عبارتند از:

 نویز Noise Values

داده های پرت Outlier Values

 مقادیر از دست رفته Missing Values

 مقادیر تکراری Duplicate Values

نویز :

Noise Value

یکی از مهمترین اشکالات در داده ها وجود نویز در آنهاست که باید در مرحله پاکسازی داده ها راه حلی جهت مدیریت کردن آنها پیدا کنیم.

به هرگونه تغییر و تخریب در مقادیر داده که بصورت غیر عمدی صورت پذیرد و به طور کلی به هر چیزی که باعث شود به اصل داده دسترسی نداشته باشیم نویز گفته میشود ،در واقع نویز یک مقدار خیلی کوچک است که با داده های اصلی جمع یا تفریق می شود  ،به عنوان مثال داشتن مقدار اعشاری در مقادیر مربوط به سن افراد یک نویز به حساب می آید.

داده های پرت:

Outlier Value

دومین مورد از اشکال موجود در داده ها وجود داده های پرت یا خارج از محدوده نرمال در آنهاست که باید در مرحله پاکسازی داده ها راه حلی جهت مدیریت کردن آنها پیدا کنیم.

داده های پرت  در یک جدول  رکورد هایی هستند که مقادیر ویژگی های آنها نسبت به سایر رکورد ها بسیار متفاوت است ،این تفاوت سبب می‌شود که در فضای چند بعدی ویژگی ها ، محل قرار گرفتن نمونه های پرت نسبت به سایر رکورد ها بسیار متفاوت باشد و در نتیجه امکان یافتن نظم بین داده ها در صورت وجود داده های پرت ،بسیار مشکل تر خواهد بود .

به عنوان مثال در مورد ویژگی سن داشتن مقادیر مانند 150 یا 200  به عنوان داده پرت محسوب می شود ، همانند نویز بایستی راهکاری جهت مدیریت داده های پرت پیدا کنیم ،از نظر آماری می توان با استفاده از نمودار  نمودار جعبه ای داده های پرت را مشخص کرد در ادامه با استفاده از زبان پایتون این کار را انجام خواهیم داد.

مقادیر از دست رفته

Missing Value

سومین مورد از اشکال موجود در داده ها وجود داده های تکراری در آنهاست که باید در مرحله پاکسازی داده ها راه حلی جهت حذف این داده ها پیدا کنیم.

زمانی که اطلاعات مربوط به نمونه هایی ازداده ها را بررسی می کنیم ممکن است در برخی از رکورد ها مقدار بعضی از ویژگی ها خالی باشد ، مثلاً در جدولی که اطلاعات مربوط به کشور ، سن و میزان حقوق در آن ذخیره شده است ،ممکن است در برخی از رکورد ها عدد مربوط به سن یا حقوق خالی باشد .

 از آنجایی که خالی بودن مقدار این ویژگی ها در حین پیاده سازی الگوریتم ها ما را دچار مشکل می کند ،باید راهکاری برای حل این مسئله پیدا کنیم ، با توجه به نوع مسئله و توزیع  خالی بودن ویژگی ها ،راهکارهای مختلفی قابل استفاده است. مثلاً ممکن است در اطلاعات مربوط به سوابق پرسنل یک سازمان ستون مربوط به سابقه کار خارج سازمانی ،برای اکثر رکورد ها خالی باشد در این حالت بهتر است که از ویژگی سابقه کار خارج سازمانی صرف نظر کنیم و در تجزیه و تحلیل ها از این ویژگی استفاده نکنیم .

حالت دیگری که در آن خالی بودن ویژگی خیلی گسترده نیست ، راهکارهای دیگری دارد ،مثلاً می‌توان به جای مقدار خالی میانگین مقادیر رکورد های دیگر را جایگزین کرد و یا اینکه از یک مقدار ثابت برای پر کردن مقادیر خالی استفاده کرد ،که موضوع تحت عنوان استراتژی در مرحله جایگذاری برای مقادیر از دست رفته محسوب می شود که در ادامه نحوه انجام آن را در زبان پایتون شرح خواهیم داد

مقادیر تکراری :

Duplicate Value

آخرین حالتی که در پاکسازی داده ها در این قسمت به آن می پردازیم مدیریت مقادیر تکراری است ،این مقادیر همان طور که از نامشان مشخص است به رکورد هایی گفته می شود که عیناً تکرار شده‌اند ، بنابراین باید از بین مقادیر تکراری یک رکورد را انتخاب کنیم.

 با انجام مراحل فوق مرحله پاکسازی داده کامل می شود و آماده می شویم تا وارد مراحل بعدی شده و کم کم داده را جهت ورود به الگوریتم های یادگیری ماشین آماده کنیم در پایان نحوه انجام هر یک از مراحلی را که به آنها اشاره کردیم را در زبان پایتون شرح می دهیم.

در تشریح موارد فوق از یک جدول ساده به صورت زیر استفاده می کنیم.

CountryAgeSalaryPurchased
France4472000No
Spain27.348000Yes
Germany3054000No
Spain3861000No
Germany40Yes
France3558000Yes
Spain52000No
France48.979000Yes
Germany5083000No
France3767000Yes
France15067000Yes
France35500Yes
نمونه ای از داده ها قبل از پاکسازی

لازم به توضیح است که منظور ما از واژه ویژگی یا صفت (Attribute) همان ستون های جدول و منظور از یک نمونه داده (Instance)همان رکورد (Record)جدول است.

در مقاله های بعدی نحوه انجام پاکسازی داده ها را در پایتون شرح خواهیم داد.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا
بستن
بستن