Skip to content

Machine Learning

Линейные Модели

Делаем практики с работы с линейными моделями (регрессия и классификация)

  • Линейная Регрессия Предобработка


    Предсказания стоимости квартиры в Москве и желаем предобработку данных, используя sklearn

  • Линейная Регрессия Практика 1


    Предсказания стоимости недвижимости в Бостоне, используем самописные функции с numpy и решаем задачу оптимизации гиперпараметров используя матричный и подход градиентного спуска

  • Линейная Регрессия Практика 2


    Одинаковая задача как и в Практика 1, но в этот раз используем более продвинутый подход OOP, для определения типа метода.

  • Логистическая Регрессия Метрики Качества


    Базовые метрики оценки моделей классификации accuracy, precision, recall и F1 score, используем встроеные функции из sklearn

  • Логистическая Регрессия Практика 1


    Решаем задачу классификации дорогих от дешевых смартфонов, используем встроеные методы модели и оценку качества модели из sklearn

  • Логистическая Регрессия Практика 2


    Решаем задачу классификации доходов людей, для этой задачи мы начинаем с самописными функциями для обучения и предсказания с логрегрессии, решая ее градиентным спуском. Оцениваем качество модели использую дополнительную метрику ROC-AUC. Далее эти функции обертываем в методы класса OOP, и показываем как можно добавить регулировки регурелизауии для обоих видов линейной модели.

Кластеризация

Изучаем методы кластеризация данных, какие у разных моделей гиперпараметры, как они отличаются друг от друга и какие метрики используются для оценки качества кластеризации, в конце делаем практическое применение кластеризации

  • K-means Практика


    Ознакамливаемся с KMeans из sklearn, какие у нее гиперпараметры и методы класса на простых синтетических данных

  • EM-алгоритм Практика


    Ознакамливаемся с GaussianMixture из sklearn, какие у нее гиперпараметры и методы класса на простых синтетических данных

  • Агломеративная кластеризация Практика


    Ознакамливаемся с AgglomerativeClustering из sklearn, какие у нее гиперпараметры и методы класса на простых синтетических данных

  • DBSCAN. Практика


    Ознакамливаемся с DBSCAN из sklearn, какие у нее гиперпараметры и методы класса на простых синтетических данных

  • Коэффициент силуэта Практика


    Практика по оценки результата кластеризация использую метрику silhouette_score на простом примере

  • Однородность Практика


    Практика по оценки результата кластеризация использую метрику homogeneity_score на простом примере

  • Полнота Практика


    Практика по оценки результата кластеризация использую метрику completeness_score на простом примере

  • V-мера Практика


    Практика по оценки результата кластеризация использую метрику v_measure_score на простом примере

  • Кластеризация Новостей


    Решаем задачу кластеризации текстов. Для обработки текста, токенизируем и убираем стоп слова с CountVectorizer. На фильтрованных данных преобразуем токены в векторное представление используя word2vec и усредняем для всего предложения. На этих фичах обучаем кластеризацию и оцениваем качество модели.

Решающие деревья и случайный лес

Изучаем модели на основе деревьев, и вариации ансамблирования этих моделей подходом бэггинга и методом случайных подпространств

  • Решаюшие Деревья


    Описываем модель, как она обучается, что в ней оптимизируем при обучении. Посмотрим на явный пример переобучения, и отметим как в этой модели можно контролировать.

  • Решаюшие Деревья Практика


    Продолжаем на простом примере смотреть как параметр максимальной глубины влияет на результат обучения. Посмотрим какой параметр контролирует переобучение.

  • Ансамбли Практика


    На примере бинарной классификации, определим главные концепции в ансамблировании которые приведут нас к модели случайный лес. Начиная простой модели деревья решении, обернем модель в классификатор бэггинга BaggingClassifier. Посмотрим на пример как эту модель можно улучшить подбором параметр. Изучим по каким параметрам происходит рандомизация в случайном лесе RandomForestClassifier, что такое OOB метрика, сравним бэггинг с деревьями и линейными моделями.

Бустинг. Стекинг

Подходы градиентного бустинга и стекинг моделей

  • Когда целого леса мало


    Отметим проблемы которые существуют в модели ансаблирования случайный лес, показываем на простом примере разницу между не глубокой и глубокой моделью

  • Бустинг Практика


    На примере задачи предсказания стоимости жилья в бостоне,

Временные ряды в МО

Time series based machine learning

Projects

Hackathon competition projects