- "Специалист по Data Science" (Яндекс.Практикум, Москва, Россия). Диплом о проф. переподготовке: RU / ENG. 2022-2023
-
"Математика для анализа данных" (Яндекс.Практикум, Москва, Россия). Свидетельство: RU / ENG. 2023-2024
-
"Python: des fondamentaux aux concepts avancés du langage" (Université Côte d'Azur, Ницца, Франция). Open badge: FR. 2023
-
"Machine learning in Python with scikit-learn" (French National Research Institute for Digital Science and Technology (INRIA), Париж, Франция). Open badge: ENG. 2023
-
"Data Science с Глебом Михайловым" (STEPIK). Сертификат: RU. 2023
-
"Введение в Data Science и машинное обучение" (STEPIK). Сертификат: RU. 2023
"Курсы, пройденные на портале STEPIK"
Linux | Python 3 | Git | Jupiter Notebook | PostgreSQL |
MySQL | SQLite | DataLens | DBeaver | Redash |
Pandas | Numpy | SciPy | Scikit-learn | Catboost |
LightGBM | XGBoost | Matplotlib | Seaborn | A/B-тесты |
№ | Название | Цель | Библиотеки | Технологии |
---|---|---|---|---|
1 | «Оценка результатов эксперимента на этапе планирования A/B-теста» | на этапе планирования A/B-теста провести анализ соответствия плановых значений метрик теста и расчитанного размера выборки | Pandas, Numpy, Matplotlib, Statsmodels, Tqdm | Monte Carlo Method, A/B Test Calculator by Gleb Mikhaylov, Evan Miller Sample Size Calculator, LaTeX |
2 | «Сравнение точности двух тестов с бинарным ответом на примере тестов на беременность на основе анализа значений sensitivity и specificity тестов» | на основе анализа метрик двух тестов определить, какой из тестов является более точным | Pandas, Matplotlib, Sklearn | Monte Carlo Method, LaTeX |
3 | «SQLite & PostgreSQL. Анализ данных в Google Colab» | провести анализ данных с помощью SQLite и PostgreSQL в Google Colab | Sqlite3, SQLAlchemy, Pandas, Missingno, Matplotlib | SQLite, PostgreSQL, ElephantSQL, оконные функции, Google Colab, Google Drive |
4 | «Прогнозирование исхода лечения цирроза печени – Prediction of Cirrhosis Outcomes» (Kaggle) | предсказание вероятности исхода лечения пациентов с циррозом печени (задача мультиклассификации) | Pandas, Numpy, Matplotlib, Seaborn, Missingno, Dataprep, Phik, Category_encoders, Sklearn, Imblearn, Catboost, XGBoost | IQR (Interquartile Range), PCA (Principal component analysis), LDA (Linear Discriminant Analysis), t-SNE (T-distributed Stochastic Neighbor Embedding), Feature Engineering, Polynomial Features, Pipeline, VarianceThreshold, SMOTETomek |
5 | «Турникеты» (Open Data Science) | на основе накопленных данных идентифицировать посетителя в зависимости от характерного времени его прохода на территорию организации, исключив вероятность передачи пропуска одним сотрудником другому (задача мультиклассификации) | Pandas, Numpy, Random, Matplotlib, Seaborn, Datetime, Sklearn, Imblearn, CatBoost | Feature Engineering, Polynomial Features, SelektKBest, GridSearchCV, RandomizedSearchCV, Pipeline, OneVsRestClassifier, confusion_matrix |
6 | «Разработка модели машинного обучения для предсказания температуры стали для оптимизации производственных расходов металлургического комбината „Так закаляем сталь‟» (Яндекс.Практикум) | разработка модели машинного обучения, предсказывающей температуру стали, выплавляемой на металлургическом комбинате «Так закаляем сталь» (задача регрессии) | Pandas, Numpy, Matplotlib, Seaborn, DateTime, Phik, Sklearn, Imblearn, Feature_Engine, Catboost, Xgboost, Lightgbm | Pipeline, Feature Engineering, RandomizedSearchCV, PolynomialFeatures, MinMaxScaler, DropCorrelatedFeatures, SelektKBest, VotingRegressor, background_gradient |
7 | «Разработка модели машинного обучения для прогнозирования оттока клиентов оператора связи „Ниединогоразрыва.ком‟» (Яндекс.Практикум) | разработка модели машинного обучения, прогнозирующей возможный отток клиентов (задача классификации) | Pandas, Numpy, Matplotlib, Seaborn, Skimpy, Datetime, ydata-profiling, Psutil, Phik, Sklearn, Imblearn, Catboost, Xgboost, LightGBM | Pipeline, Feature Engineering, RandomizedSearchCV, MinMaxScaler, mutual_info_regression, Mutual Information, OneHotEncoder, OrdinalEncoder, MinMaxScaler, SelectKBest, chi2, VotingClassifier, confusion_matrix, background_gradient |
8 | «Определение возраста покупателей» (Яндекс.Практикум) | построение модели, которая по фотографии определит приблизительный возраст человека (задача регрессии для Computer Vision) | Pandas, Numpy, Matplotlib, Seaborn, PIL, Tensorflow, Keras | Yandex Compute Cloud |
9 | «Выявление токсичных комментариев в отзывах покупателей интернет-магазина „Викишоп‟» (Яндекс.Практикум) | построение модели классификации комментариев пользователей на позитивные и негативные (задача классификации для Natural Language Processing / NLP) | Pandas, Numpy, Matplotlib, Seaborn, Autocorrect, Contractions, Gc, Collections, Re, NLTK, Sklearn, Catboost | Pipeline, RandomizedSearchCV, TfidfVectorizer, CountVectorizer, ngram_range |
10 | Задача «Классификация тональности текста» (Яндекс.Практикум) | обучение логистической регрессии для определения тональности текста (задача классификации для Natural Language Processing / NLP) | Pandas, NLTK, Sklearn | Google Drive |
11 | «Прогнозирование количества заказов такси на следующий час для компании „Чётенькое такси‟» (Яндекс.Практикум) | построение модели, предсказывающей количество заказов такси на следующий час (задача регрессии для Time Series) | Pandas, Numpy, Matplotlib, Seaborn, Statsmodels, Sklearn, Catboost, LightGBM | seasonal_decompose, TimeSeriesSplit, RandomizedSearchCV |
12 | «Определение рыночной стоимости автомобилей» (Яндекс.Практикум) | разработка модели машинного обучения, предсказывающей рыночную стоимость автомобиля (задача регрессии) | Pandas, Numpy, Matplotlib, Seaborn, Joypy, Skimpy, Datetime, Sklearn, Feature-engine, Catboost, LightGBM | KNNImputer, SimpleImputer, OneHotEncoder, OrdinalEncoder, MinMaxScaler, DropCorrelatedFeatures, SelectKBest, mutual_info_regression, make_scorer, RandomizedSearchCV |
13 | «Защита персональных данных клиентов страховой компании „Хоть потоп‟» (Яндекс.Практикум) | разработка метода преобразования данных, гарантирующего одновременно невозможность восстановления персональной информации и высокое качество моделей машинного обучения, использующих обезличенные персональные данные | Pandas, Numpy, Matplotlib, Seaborn, Phik, Sklearn | |
14 | «Разработка модели, предсказывающей коэффициент восстановления золота из золотодобывающей руды для группы компаний „Цифра‟» (Яндекс.Практикум) | подготовка прототипа модели машинного обучения, предсказывающей коэффициент восстановления золота из золотосодержащей руды (задача регрессии) | Pandas, Numpy, Matplotlib, Seaborn, Torchmetrics, Joypy, Sklearn | Symmetric Mean Absolute Percentage Error, make_scorer, RandomizedSearchCV |
15 | «Поиск локации для скважины для ПАО „ГлавРосГосНефть‟» (Яндекс.Практикум) | определение региона, где добыча нефти принесёт наибольшую прибыль (задача регрессии) | Pandas, Numpy, Matplotlib, Seaborn, Phik, Sklearn | Анализ возможной прибыли и рисков с помощью техники Bootstrap |
16 | «Предсказание оттока клиентов из банка» (Яндекс.Практикум) | построение модели машинного обучения, предсказывающей отток клиентов из банка (задача классификации) | Pandas, Numpy, Random, Matplotlib, Seaborn, Skimpy, Imbalanced-learn, Phik, Collections, Tqdm, Sklearn | SMOTE, ADASYN, RandomUnderSampling, SMOTETomek, OneHotEncoder, OrdinalEncoder, StandardScaler, mutual_info_regression, SelectKBest, GridSearchCV |
17 | «Рекомендация тарифов» (Яндекс.Практикум) | на основе данных о поведении клиентов оператора мобильной связи 'Мегалайн', уже перешедших на новые тарифы 'Smart' и 'Ultra', построить модель для классификации пользователей в зависимости от используемого ими тарифа (задача классификации) | Pandas, Numpy, Matplotlib, Seaborn, Tqdm, Sklearn | GridSearchCV |
18 | «Интернет-магазин „Стримчик‟» (Яндекс.Практикум) | на основе исследования информации из открытых источников выявить факторы и закономерности, определяющие успех выпуска компьютерной игры при планировании вывода на рынок новой компьютерной игры и оптимизации бюджета рекламной компании | Pandas, Numpy, Random, Matplotlib, Seaborn, Scipy | |
19 | «Исследование объявлений о продаже квартир в Санкт-Петербурге и Ленинградской области» (Яндекс.Практикум) | проведение исследовательского анализа данных датасета с объявлениями о продаже квартир | Pandas, Numpy, Random, Matplotlib, Seaborn |