از پارسکدرز بیشترین بهره را ببرید و رویای کاری خود را زندگی کنید.
هفت ماه پیش منتشر شده
تعداد بازدید: 121
کد پروژه: 546254
شرح پروژه
الزامات تکمیل
در این دوره شما سه استراتژی برای استفاده از رمزگذارهای خودکار برای خوشهبندی آموختید.
1) 2 dim code
2) One Hot Encoding (does not require Kmeans)
3) relatively high dim code
در این کار شما دو روش اول را بر روی یک مثال بسیار ساده، پنگوئن هایی که از قبل آشنا هستند، آزمایش خواهید کرد. داده ها برای روش سوم به اندازه کافی ابعاد بالایی ندارند، بنابراین این قابل اجرا نیست.
لطفا به صورت زیر عمل کنید:
1) داده ها را از CSV پیوست شده "penguins_size.csv" بارگیری کنید. ستون "گونه" برچسب است. این برای خوشه بندی نادیده گرفته می شود، اما بعداً برای نمودارهایی استفاده می شود که کیفیت نتیجه را نشان می دهد.
2) کاوش و پاکسازی حداقل داده ها: به مقادیر از دست رفته و نقاط پرت شدید توجه کنید
3) خوشهبندی را با استفاده از رمزگذار خودکار که به 2 نورون کاهش مییابد، انجام دهید، سپس دوباره با استفاده از رمزگذار خودکاری که برای 3 گونه پنگوئن مورد نظر کدگذاری شده است، "یک داغ" انجام دهید. لطفاً با دنبال کردن منحنیهای ضرر، مطمئن شوید که یک رمزگذار خودکار تنظیمشده (معماری، نرخ_آموزش، بهینهساز، اندازه دسته، ...) ایجاد کردهاید.
4) کیفیت نتیجه:
در مورد "2 dim"، لطفاً داده های رمزگذاری شده را در نمودار 2 بعدی رسم کنید. گونه های واقعی را با خوشه های یافت شده مقایسه کنید (مثلاً با کدهای رنگی و شکل نقاط یا با 2 نمودار در کنار یکدیگر با کدهای رنگ و غیره. در اینجا هیچ محدودیتی برای خلاقیت شما وجود ندارد).
در مورد "یک داغ"، طرحی که کیفیت را تجزیه و تحلیل کند بسیار دشوارتر است. باز هم، چند پیشنهاد، شما خودتان تصمیم می گیرید که چگونه آنها را ارائه دهید:
-> ابتدا می توانید داده ها را با استفاده از PCA به 2 بعد کاهش دهید، سپس از کدهای رنگی برای مقایسه خوشه های رمزگذار خودکار با برچسب های واقعی استفاده کنید.
-> می توانید 2 ویژگی را در یک ماتریس رسم کنید و سپس آنها را با استفاده از کدهای رنگی مقایسه کنید
-> می توانید توزیع مقادیر ویژگی های فردی را برای هر خوشه برای نقاط داده جداگانه مشخص کنید (نحوه انجام این کار را می توان به روش های مختلفی انجام داد، به عنوان مثال نمودار ویولن) و مشخص کنید که نقاط داده خوشه چگونه است. توزیع شده در بین گونه ها (در ساده ترین حالت، نمودار دایره ای)
->...
4) لطفاً نظر خود را در مورد هر مرحله در نظرات بیان کنید.
Example #3: Autoencoder for clustering
Completion requirements
In the course you learned three strategies for using autoencoders for clustering.
a) 2 dim code
b) One Hot Encoding (does not require Kmeans)
c) relatively high dim code
In this task you will test the first two methods on a very simple example, the already familiar penguins. The data is not high-dimensional enough for the third method, so this is not applicable.
Please proceed as follows:
1) Load data from the attached CSV "penguins_size.csv". The column "species" is the label. This is ignored for clustering, but is later used for plots that show the quality of the result.
2) Minimal data exploration and cleansing: Pay attention to missing values and extreme outliers
3) Perform clustering using an autoencoder that is reduced to 2 neurons, then again using an autoencoder that is "one-hot" encoded for the 3 penguin species you are looking for. Please make sure to create a well-tuned autoencoder (architecture, learning_rate, optimizer, batch_size, ...) by following the course of loss curves.
4) Quality of the result:
In the "2 dim" case, please plot the coded data in a 2d plot. Compare the actual species with the clusters found (e.g. by color codes and shapes of the points or by 2 plots next to each other with color codes, etc. There is no limit to your creativity here).
In the "one-hot" case, a plot that analyzes the quality is much more difficult. Again, some suggestions, you decide for yourself how to present them:
-> You could first reduce the data to 2 dimensions using PCA, then use color codes to compare the autoencoder clusters with the actual labels
-> You could plot 2 attributes in a matrix and then compare them using color codes
-> You could specify the distribution of the values of the individual attributes for each cluster for the individual data points (how to do this could be done in many ways, e.g. violin plot) and specify how the data points of the cluster are distributed across the species (in the simplest case, pie chart)
-> ...
4) Please make sure to state in the comments what you thought about each step
این پروژه شامل 1 فایل مهم است، لطفا قبل از ارسال پیشنهاد حتما نسبت به بررسی این فایل اقدام فرمایید.
مهارت ها و تخصص های مورد نیاز
مبلغ پروژه
1,500,000 تومان
مهلت برای انجام
10روز
وضعیت مناقصه
انجام شده
درباره کارفرما
عضویت یک سال پیش
نیاز به استخدام فریلنسر یا سفارش پروژه مشابه دارید؟
قادر به انجام این پروژه هستید؟
متأسفانه مهلت ارسال پیشنهاد این پروژه به پایان رسیده و پروژه بسته شده است؛ اما فرصتهای متعددی در سایت موجود میباشد.
ترکیب الگوریتم ژنتیک با خوشه بندی k-Means برای بهبود هرچه بیشتر خوشه بندی
هفت ماه پیش منتشر شده
به رایگان یک حساب کاربری بسازید
مهارتها و تخصصهای خود را ثبت کنید، رزومه و نمونهکارهای خود را نشان دهید و سوابق کاری خود را شرح دهید.
به شیوهای که دوست دارید کار کنید
برای پروژههای دلخواه در زمان دلخواه پیشنهاد قیمت خود را ثبت کنید و به فرصتهای شغلی منحصر به فرد دسترسی پیدا کنید.
با اطمینان دستمزد دریافت کنید
از زمان شروع کار تا انتهای کار به امنیت مالی شما کمک خواهیم کرد. وجه پروژه را از ابتدای کار به امانت در سایت نگه خواهیم داشت تا تضمین شودکه بعد از تحویل کار دستمزد شما پرداخت خواهد شد.
میخواهید شروع به کار کنید؟
یک حساب کاربری بسازید
بهترین مشاغل فریلنسری را پیدا کنید
رشد شغلی شما به راحتی ایجاد یک حساب کاربری رایگان و یافتن کار (پروژه) متناسب با مهارتهای شما
است.
پیدا کردن کار (پروژه)
تماشای دمو روش کار