Machine Learning¶
Линейные Модели¶
Делаем практики с работы с линейными моделями (регрессия и классификация)
-
Линейная Регрессия Предобработка
Предсказания стоимости квартиры в Москве и желаем предобработку данных, используя
sklearn
-
Линейная Регрессия Практика 1
Предсказания стоимости недвижимости в Бостоне, используем самописные функции с
numpy
и решаем задачу оптимизации гиперпараметров используя матричный и подход градиентного спуска -
Линейная Регрессия Практика 2
Одинаковая задача как и в
Практика 1
, но в этот раз используем более продвинутый подход OOP, для определения типа метода. -
Логистическая Регрессия Метрики Качества
Базовые метрики оценки моделей классификации
accuracy
,precision
,recall
иF1 score
, используем встроеные функции изsklearn
-
Логистическая Регрессия Практика 1
Решаем задачу классификации дорогих от дешевых смартфонов, используем встроеные методы модели и оценку качества модели из
sklearn
-
Логистическая Регрессия Практика 2
Решаем задачу классификации доходов людей, для этой задачи мы начинаем с самописными функциями для обучения и предсказания с логрегрессии, решая ее градиентным спуском. Оцениваем качество модели использую дополнительную метрику
ROC-AUC
. Далее эти функции обертываем в методы класса OOP, и показываем как можно добавить регулировки регурелизауии для обоих видов линейной модели.
Кластеризация¶
Изучаем методы кластеризация данных, какие у разных моделей гиперпараметры, как они отличаются друг от друга и какие метрики используются для оценки качества кластеризации, в конце делаем практическое применение кластеризации
-
K-means Практика
Ознакамливаемся с
KMeans
изsklearn
, какие у нее гиперпараметры и методы класса на простых синтетических данных -
EM-алгоритм Практика
Ознакамливаемся с
GaussianMixture
изsklearn
, какие у нее гиперпараметры и методы класса на простых синтетических данных -
Агломеративная кластеризация Практика
Ознакамливаемся с
AgglomerativeClustering
изsklearn
, какие у нее гиперпараметры и методы класса на простых синтетических данных -
DBSCAN. Практика
Ознакамливаемся с
DBSCAN
изsklearn
, какие у нее гиперпараметры и методы класса на простых синтетических данных -
Коэффициент силуэта Практика
Практика по оценки результата кластеризация использую метрику
silhouette_score
на простом примере -
Однородность Практика
Практика по оценки результата кластеризация использую метрику
homogeneity_score
на простом примере -
Полнота Практика
Практика по оценки результата кластеризация использую метрику
completeness_score
на простом примере -
V-мера Практика
Практика по оценки результата кластеризация использую метрику
v_measure_score
на простом примере -
Кластеризация Новостей
Решаем задачу кластеризации текстов. Для обработки текста, токенизируем и убираем стоп слова с
CountVectorizer
. На фильтрованных данных преобразуем токены в векторное представление используяword2vec
и усредняем для всего предложения. На этих фичах обучаем кластеризацию и оцениваем качество модели.
Решающие деревья и случайный лес¶
Изучаем модели на основе деревьев, и вариации ансамблирования этих моделей подходом бэггинга и методом случайных подпространств
-
Решаюшие Деревья
Описываем модель, как она обучается, что в ней оптимизируем при обучении. Посмотрим на явный пример переобучения, и отметим как в этой модели можно контролировать.
-
Решаюшие Деревья Практика
Продолжаем на простом примере смотреть как параметр максимальной глубины влияет на результат обучения. Посмотрим какой параметр контролирует переобучение.
-
Ансамбли Практика
На примере бинарной классификации, определим главные концепции в ансамблировании которые приведут нас к модели
случайный лес
. Начиная простой модели деревья решении, обернем модель в классификатор бэггингаBaggingClassifier
. Посмотрим на пример как эту модель можно улучшить подбором параметр. Изучим по каким параметрам происходит рандомизация в случайном лесеRandomForestClassifier
, что такоеOOB
метрика, сравним бэггинг с деревьями и линейными моделями.
Бустинг. Стекинг¶
Подходы градиентного бустинга и стекинг моделей
-
Когда целого леса мало
Отметим проблемы которые существуют в модели ансаблирования случайный лес, показываем на простом примере разницу между не глубокой и глубокой моделью
-
Бустинг Практика
На примере задачи предсказания стоимости жилья в бостоне,
Временные ряды в МО¶
Time series based machine learning
Projects¶
Hackathon competition projects