رمزگذار خودکار برای خوشه بندی

یک سال پیش منتشر شده

تعداد بازدید: 176

کد پروژه: 546254

شرح پروژه

الزامات تکمیل

در این دوره شما سه استراتژی برای استفاده از رمزگذارهای خودکار برای خوشه‌بندی آموختید.

1) 2 dim code
2) One Hot Encoding (does not require Kmeans)
3) relatively high dim code

در این کار شما دو روش اول را بر روی یک مثال بسیار ساده، پنگوئن هایی که از قبل آشنا هستند، آزمایش خواهید کرد. داده ها برای روش سوم به اندازه کافی ابعاد بالایی ندارند، بنابراین این قابل اجرا نیست.

لطفا به صورت زیر عمل کنید:

1) داده ها را از CSV پیوست شده "penguins_size.csv" بارگیری کنید. ستون "گونه" برچسب است. این برای خوشه بندی نادیده گرفته می شود، اما بعداً برای نمودارهایی استفاده می شود که کیفیت نتیجه را نشان می دهد.

2) کاوش و پاکسازی حداقل داده ها: به مقادیر از دست رفته و نقاط پرت شدید توجه کنید

3) خوشه‌بندی را با استفاده از رمزگذار خودکار که به 2 نورون کاهش می‌یابد، انجام دهید، سپس دوباره با استفاده از رمزگذار خودکاری که برای 3 گونه پنگوئن مورد نظر کدگذاری شده است، "یک داغ" انجام دهید. لطفاً با دنبال کردن منحنی‌های ضرر، مطمئن شوید که یک رمزگذار خودکار تنظیم‌شده (معماری، نرخ_آموزش، بهینه‌ساز، اندازه دسته، ...) ایجاد کرده‌اید.

4) کیفیت نتیجه:

در مورد "2 dim"، لطفاً داده های رمزگذاری شده را در نمودار 2 بعدی رسم کنید. گونه های واقعی را با خوشه های یافت شده مقایسه کنید (مثلاً با کدهای رنگی و شکل نقاط یا با 2 نمودار در کنار یکدیگر با کدهای رنگ و غیره. در اینجا هیچ محدودیتی برای خلاقیت شما وجود ندارد).

در مورد "یک داغ"، طرحی که کیفیت را تجزیه و تحلیل کند بسیار دشوارتر است. باز هم، چند پیشنهاد، شما خودتان تصمیم می گیرید که چگونه آنها را ارائه دهید:

-> ابتدا می توانید داده ها را با استفاده از PCA به 2 بعد کاهش دهید، سپس از کدهای رنگی برای مقایسه خوشه های رمزگذار خودکار با برچسب های واقعی استفاده کنید.

-> می توانید 2 ویژگی را در یک ماتریس رسم کنید و سپس آنها را با استفاده از کدهای رنگی مقایسه کنید

-> می توانید توزیع مقادیر ویژگی های فردی را برای هر خوشه برای نقاط داده جداگانه مشخص کنید (نحوه انجام این کار را می توان به روش های مختلفی انجام داد، به عنوان مثال نمودار ویولن) و مشخص کنید که نقاط داده خوشه چگونه است. توزیع شده در بین گونه ها (در ساده ترین حالت، نمودار دایره ای)

->...

4) لطفاً نظر خود را در مورد هر مرحله در نظرات بیان کنید.

Example #3: Autoencoder for clustering
Completion requirements

In the course you learned three strategies for using autoencoders for clustering.

a) 2 dim code
b) One Hot Encoding (does not require Kmeans)
c) relatively high dim code

In this task you will test the first two methods on a very simple example, the already familiar penguins. The data is not high-dimensional enough for the third method, so this is not applicable.

Please proceed as follows:

1) Load data from the attached CSV "penguins_size.csv". The column "species" is the label. This is ignored for clustering, but is later used for plots that show the quality of the result.

2) Minimal data exploration and cleansing: Pay attention to missing values and extreme outliers

3) Perform clustering using an autoencoder that is reduced to 2 neurons, then again using an autoencoder that is "one-hot" encoded for the 3 penguin species you are looking for. Please make sure to create a well-tuned autoencoder (architecture, learning_rate, optimizer, batch_size, ...) by following the course of loss curves.

4) Quality of the result:

In the "2 dim" case, please plot the coded data in a 2d plot. Compare the actual species with the clusters found (e.g. by color codes and shapes of the points or by 2 plots next to each other with color codes, etc. There is no limit to your creativity here).

In the "one-hot" case, a plot that analyzes the quality is much more difficult. Again, some suggestions, you decide for yourself how to present them:

-> You could first reduce the data to 2 dimensions using PCA, then use color codes to compare the autoencoder clusters with the actual labels

-> You could plot 2 attributes in a matrix and then compare them using color codes

-> You could specify the distribution of the values of the individual attributes for each cluster for the individual data points (how to do this could be done in many ways, e.g. violin plot) and specify how the data points of the cluster are distributed across the species (in the simplest case, pie chart)

-> ...

4) Please make sure to state in the comments what you thought about each step

این پروژه شامل 1 فایل مهم است، لطفا قبل از ارسال پیشنهاد حتما نسبت به بررسی این فایل اقدام فرمایید.

مهارت ها و تخصص های مورد نیاز

یادگیری ماشین (Machine Learning) Deep Learning تحلیل داده (Data Analysis)

مبلغ پروژه

1,500,000 تومان

مهلت برای انجام

10روز

وضعیت مناقصه

انجام شده

درباره کارفرما

کاربر581159

عضویت دو سال پیش

12 پروژه ثبت شده ،

0 پروژه در حال انجام ،

0 پروژه آماده دریافت پیشنهاد ،

نرخ پذیرش پیشنهاد 100%

برای پیدا کردن پروژه‌های مشابه ثبت نام کنید و پروفایل خود را بسازید.

ورود با گوگل

یا

نیاز به استخدام فریلنسر یا سفارش پروژه مشابه دارید؟

سفارش پروژه مشابه

روش کار در پارس‌کدرز

به رایگان یک حساب کاربری بسازید

مهارت‌ها و تخصص‌های خود را ثبت کنید، رزومه و نمونه‌کارهای خود را نشان دهید و سوابق کاری خود را شرح دهید.

به شیوه‌ای که دوست دارید کار کنید

برای پروژه‌های دلخواه در زمان دلخواه پیشنهاد قیمت خود را ثبت کنید و به فرصت‌های شغلی منحصر به فرد دسترسی پیدا کنید.

با اطمینان دستمزد دریافت کنید

از زمان شروع کار تا انتهای کار به امنیت مالی شما کمک خواهیم کرد. وجه پروژه را از ابتدای کار به امانت در سایت نگه خواهیم داشت تا تضمین شودکه بعد از تحویل کار دستمزد شما پرداخت خواهد شد.

می‌خواهید شروع به کار کنید؟

یک حساب کاربری بسازید

بهترین مشاغل فریلنسری را پیدا کنید
رشد شغلی شما به راحتی ایجاد یک حساب کاربری رایگان و یافتن کار (پروژه) متناسب با مهارت‌های شما است.

پیدا کردن کار (پروژه)

تماشای دمو روش کار

پارس‌کدرز چگونه کار می‌کند؟

پارس‌کدرز خریداران یا کارفرمایان را به مجری‌ها /فریلنسرهای خبره‌ای متصل می‌کند که برای انجام پروژه آماده هستند.

رمزگذار خودکار برای خوشه بندی

برای پیدا کردن پروژه‌های مشابه ثبت نام کنید و پروفایل خود را بسازید.

نیاز به استخدام فریلنسر یا سفارش پروژه مشابه دارید؟

سری به پروژه‌های مشابه بزنید

روش کار در پارس‌کدرز