بارگذاری داده ها در پایتون برای آماده سازی داده ها


مقدمه
قبل از انجام هر عملی در یک سیستم یادگیری ماشین نیاز است ،تا داده های مورد نیاز را در نرم افزاری که قرار است از آن استفاده کنیم بارگذاری کنیم . بارگذاری داده ها اولین مرحله از آماده سازی داده ها محسوب می شود .
همچنین گفتیم که دو مرحله اول در آماده سازی داده ها جمع آوری و ساختار دهی به داده هاست این کار وجه مشترک این سیستم ها و سیستم های هوش تجاری است . به طوری که همانند کاری که در سیستمهای هوش تجاری انجام می دهیم ،فرآیند جمعآوری اطلاعات و ساخت مخزن داده از آن ها را این مرحله انجام میدهیم.
در اینجا فرض می کنیم که اطلاعات مورد نیاز جمع آوری و در یک مخزن داده ذخیره شده است ،بنابراین قصد داریم که با بارگذاری این اطلاعات در نرم افزار مورد نظر که در این جا پایتون است ،به ادامه کار بپردازیم.
داده های مورد نیاز ما در فرایند یادگیری ماشین ممکن است ،در منابع داده ای مختلف قرار داشته باشد .این منابع می توانند یک فایل متنی ساده ،یا یک فایل اکسل و یا اینکه یک بانک اطلاعاتی در SQL Server ،یا هر بانک اطلاعاتی دیگری باشند.
بنابراین در این مقاله سعی می کنیم تا روش های دریافت اطلاعات از منابع داده ای مختلف را با استفاده از زبان برنامه نویسی پایتون آموزش دهیم
همانطور که میدانید پایتون یک زبان شی گرا است ،بنابراین طبیعی است که انجام کارهای مختلف در آن توسط کلاس هایی صورت گیرد که خود این کلاس ها در پکیج های مختلف تعریف شده اند .
پکیجی که در این قسمت برای بارگذاری داده ها از آن استفاده می کنیم ،یکی از معروفترین پکیج های پایتون در حوزه یادگیری ماشین است .این پکیج توابع مختلفی جهت کار با داده ها در اختیار ما قرار می دهد که در اینجا قصد داریم با معرفی این توابع فرایند بارگذاری دادهها را انجام دهیم.نام این پکیج پانداست(Pandas)
قبل از استفاده از یک پکیج ها در پایتون در صورت نیاز باید آن را نصب کرد ،روش نصب پکیج در محیط Spyder به صورت زیر است.

برای استفاده از هر پکیج در زبان پایتون باید ابتدا با استفاده از دستور زیر پکیج را در برنامه خود import کنیم.

pd در واقع یک نام مختصر برای کلاس Pandas است ،که جهت سادگی کار با پکیج ها از این نام های مستعار(alias)استفاده می شود.
نحوه بارگذاری داده ها از منابع داده مختلف در پایتون
نحوه بارگذاری داده ها از یک فایل csv
برای بارگذاری داده ها از فایل های csv از دستور زیر استفاده می کنیم.در صورتی کی می خواهید این دستور را در خارج از فضای کاری فعلی پایتون انجام دهید،باید آدرس فایل رابیاورید.

df که آن را دیتا فرم می نامیم همانند جدولی به صورت زیر است که اطلاعات دریافت شده در آن قرار می گیرد.

df همانند جدول دارای سطر و ستون است که اندیس شروع سطر ها و ستون های آن در زبان پایتون از صفر شروع می شود.برای دسترسی به عناصر df میتوانید از دستورات زیر استفاده کنید.

نحوه بارگذاری داده ها از فایل اکسل
برای بارگذاری داده ها از فایل های اکسل از دستور زیر استفاده می کنیم.

نحوه بارگذاری داده ها از یک بانک اطلاعاتی SQL SERVER
مراحل دریافت اطلاعات از بانک اطلاعاتی SQL Server
- معرفی کتابخانه های مورد نیاز

- ایجاد اتصال به بانک اطلاعاتی(con: Connection)
برای انجام این کار به پارامتر های نام سرور،نام دیتابیس،نام کاربری و رمز عبور نیاز داریم . از طریق این پارامتر ها رشته اتصال(Connection String) ایجاد و اتصال تعریف میشود.

- تعریف دستوری که می خواهیم روی بانک اطلاعاتی اجرا کنیم.
این دستور می تواندیکی از موارد زیر باشد
- Select
- Insert
- Delete
- Update

- اجرای دستور روی بانک اطلاعاتی
- حالت اول دستور Select

- حالت دوم سایر دستور ها

- بستن اتصال ایجاد شده

همانطور در کدهای بالا مشاهده می کنید اطلاعات دریافت شده از منابع مختلف در یک نوع داده ای به نام دیتا فرم قرار می گیرد .
این نوع داده ای همانند یک جدول است که از تعدادی سطر و ستون تشکیل شده است، و امکانات مختلفی در خصوص پیمایش داده و رسم نمودار های مختلف از داده های دریافت شده در اختیار ما قرار می دهد . در ادامه به برخی از آنها اشاره می کنیم.برای مشاهده سایر توابع اینجا کلیک کنید




این نوع داده ای یک تابع بسیار مفید دارد به نام که وظیفه آن شرح کلی وضعیت اطلاعات دریافت شده می باشد. از این تابع با استفاده از دستور زیر استفاده می کنیم.


همانطور که می بینید خروجی این تابع اطلاعاتی آماری در خصوص داده های دریافت شده است . این اطلاعات عبارتند از تعداد عناصر هر ویژگی مقدار حداقل ،قدار حداکثر، میانگین، انحراف معیار و اطلاعات چارک های هر ویژگی.