Business IntelligenceData Preprocessing

بارگذاری داده ها در پایتون برای آماده سازی داده ها

بارگذاری داده ها(Import Data) اولین مرحله در آماده سازی داده ها در پایتون است

مقدمه

قبل از انجام هر عملی در یک سیستم یادگیری ماشین نیاز است ،تا داده های مورد نیاز را در نرم افزاری که قرار است از آن استفاده کنیم بارگذاری کنیم . بارگذاری داده ها اولین مرحله از آماده سازی داده ها محسوب می شود .

همچنین گفتیم که دو مرحله اول در آماده سازی داده ها جمع آوری و ساختار دهی به داده هاست این کار وجه مشترک این سیستم ها و سیستم های هوش تجاری است . به طوری که همانند کاری که در سیستم‌های هوش تجاری انجام می دهیم ،فرآیند جمع‌آوری اطلاعات و ساخت مخزن داده از آن ها را این مرحله انجام میدهیم.

در اینجا فرض می کنیم که اطلاعات مورد نیاز جمع آوری و در یک مخزن داده ذخیره شده است ،بنابراین قصد داریم که با بارگذاری این اطلاعات در نرم افزار مورد نظر که در این جا پایتون است ،به ادامه کار بپردازیم.

داده های مورد نیاز ما در فرایند یادگیری ماشین ممکن است ،در منابع داده ای مختلف قرار داشته باشد .این منابع می توانند یک فایل متنی ساده ،یا یک فایل اکسل و یا اینکه یک بانک اطلاعاتی در SQL Server ،یا هر بانک اطلاعاتی دیگری باشند.

بنابراین در این مقاله سعی می کنیم تا روش های دریافت اطلاعات از منابع داده ای مختلف را با استفاده از زبان برنامه نویسی پایتون آموزش دهیم

همانطور که میدانید پایتون  یک زبان شی گرا است ،بنابراین طبیعی است که انجام کارهای مختلف در آن توسط کلاس هایی صورت گیرد که خود این کلاس ها در پکیج های مختلف تعریف شده اند .

پکیجی که در این قسمت برای بارگذاری داده ها از آن استفاده می کنیم ،یکی از معروفترین پکیج های پایتون در حوزه یادگیری ماشین است .این پکیج توابع مختلفی جهت کار با داده ها در اختیار ما قرار می دهد  که در اینجا قصد داریم با معرفی این توابع فرایند بارگذاری داده‌ها را انجام دهیم.نام این پکیج پانداست(Pandas)

قبل از استفاده از یک پکیج ها در پایتون در صورت نیاز باید آن را نصب کرد ،روش نصب پکیج در محیط Spyder به صورت زیر است.

نصب پکیج در پایتون

برای استفاده از هر پکیج در زبان پایتون باید ابتدا با استفاده از دستور زیر پکیج را در برنامه خود import کنیم.

معرفی کتابخانه ها در کد پایتون

pd در واقع یک نام مختصر برای کلاس Pandas  است ،که جهت سادگی کار با پکیج  ها از این نام های مستعار(alias)استفاده می شود.

نحوه بارگذاری داده ها از منابع داده مختلف در پایتون

نحوه بارگذاری داده ها از یک فایل csv

برای بارگذاری داده ها از فایل های csv از دستور زیر استفاده می کنیم.در صورتی کی می خواهید این دستور را در خارج از فضای کاری فعلی پایتون انجام دهید،باید آدرس فایل رابیاورید.

دریافت اطلاعات از یک منبع csv در پایتون

df که آن را دیتا فرم می نامیم  همانند جدولی به صورت زیر است که اطلاعات دریافت شده در آن قرار می گیرد.

ساختار یک دیتا فرم نمونه که در پایتون بارگذاری شده است

df همانند جدول دارای سطر و ستون است که اندیس شروع سطر ها و ستون های آن در زبان پایتون از صفر شروع می شود.برای دسترسی به عناصر df میتوانید از دستورات زیر استفاده کنید.

نحوه دسترسی به عناصر یک دیتا فرم در پایتون

نحوه بارگذاری داده ها از فایل اکسل

برای بارگذاری داده ها از فایل های اکسل از دستور زیر استفاده می کنیم.

دستور دریافت اطلاعات از فایل اکسل در پایتون

نحوه بارگذاری داده ها از یک بانک اطلاعاتی SQL SERVER

مراحل دریافت اطلاعات از بانک اطلاعاتی SQL Server

  1. معرفی کتابخانه های مورد نیاز
مغرفی کتابخانه های مورد نیاز
  • ایجاد اتصال به بانک اطلاعاتی(con: Connection)

برای انجام این کار به پارامتر های نام سرور،نام دیتابیس،نام کاربری و رمز عبور نیاز داریم . از طریق این پارامتر ها رشته اتصال(Connection String) ایجاد و اتصال تعریف میشود.

دستور تعریف رشته اتصال و برقراری اتصال با بانک اطلاعاتی

  • تعریف دستوری که می خواهیم روی بانک اطلاعاتی اجرا کنیم.

این دستور می تواندیکی از موارد زیر باشد

  • Select
  • Insert
  • Delete
  • Update
نمونه ای از دستورات SQL
  • اجرای دستور روی بانک اطلاعاتی
    • حالت اول دستور Select
نحوه اجرای دستور Select روی بانک اطلاعاتی
  • حالت دوم سایر دستور ها
نحوه اجرای سایر دستورات بجز SELECT روی بانک اطلاعاتی
  • بستن اتصال ایجاد شده
بستن اتصال ایجاد شده روی بانک

همانطور در کدهای بالا مشاهده می کنید اطلاعات دریافت شده از منابع مختلف در یک نوع داده ای به نام دیتا فرم قرار می گیرد .

این نوع داده ای همانند یک جدول است که از تعدادی سطر و ستون تشکیل شده است، و امکانات مختلفی در خصوص پیمایش داده و رسم نمودار های مختلف از داده های دریافت شده در اختیار ما قرار می دهد . در ادامه به برخی از آنها اشاره می کنیم.برای مشاهده سایر توابع اینجا کلیک کنید

دستور رسم نمودار میله ای بر اساس دو ستون از دیتا فرم
دستور رسم نمودار خطی بر اساس دو ستون از دیتا فرم

این نوع داده ای یک تابع بسیار مفید دارد به نام که وظیفه آن شرح کلی وضعیت اطلاعات دریافت شده می باشد. از این تابع با استفاده از دستور زیر استفاده می کنیم.

دستور مشاهده وضعیت دیتا فرم

همانطور که می بینید خروجی این تابع اطلاعاتی آماری در خصوص داده های دریافت شده است . این اطلاعات عبارتند از تعداد عناصر هر ویژگی مقدار حداقل ،قدار حداکثر، میانگین، انحراف معیار و اطلاعات چارک های هر ویژگی.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا
بستن
بستن