SQL(Structured Query Language) – это язык, который часто используется для взаимодействия с базами данных через Системы Управления Базами Данных (СУБД). SQL применяется для создания, модификации и управления данными. Существует множество СУБД, наиболее распространённые из них — MySQL, PostgreSQL, Oracle, Microsoft SQL Server. В свою очередь, база данных — это организованная структура для хранения, изменения и обработки взаимосвязанной информации. В современном мире базы данных применяются практически везде — без них не обходится ни одна большая компания (от интернет-магазинов до банков).
Базы данных могут не только возвращать данные, но и выполнять различные расширенные вычисления. Используя основные принципы языка SQL в данном проекте:
- Проведем предварительный анализ данных
- Анализ вакансий
- Анализ работодателей
- Подробно рассмотрим данные вакансий и работодателей связанных с программным обеспечением
Цель проекта — Провести анализ данных связанных с вакансиями и работодателями в сфере Data Science. При помощи манипуляций с данными необходимо понять, что из себя представляют данные и насколько они соответствуют целям будущего проекта создания модели машинного обучения, которая будет рекомендовать вакансии клиентам агентства. В литературе эта часть работы над ML-проектом называется Data Understanding, или анализ данных.
Данный проект направлен на демонстрацию применения методов использования SQL для анализа данных.
О структуре проекта:
- images - папка с изображениями, необходимыми для проекта
- data-analizing.ipynb - jupyter-ноутбук, содержащий основной код проекта, в котором демонстрируются методы использования sql
- requirements.txt - файл с зафиксированными версиями библиотек.
Данные хранятся под управлением СУБД PostgreSQL, а работать и выполнять SQL-запросы будем средствами Python. Для решения этой задачи требуется некоторое средство, которое будет связывать Python и PostgreSQL. Таким средством является пакет psycopg2. Установить данный пакет на любой платформе можно одним способом — с помощью pip. Запустите в отдельной ячейке Jupyter Notebook следующий код: pip install psycopg2. Для подключения нам потребуются следующие данные:
- dbname — название базы, к которой нужно подключиться;
- user — имя пользователя в СУБД;
- password — пароль;
- host — адрес, по которому нужно подключиться;
- port — порт, к которому нужно подключиться (по умолчанию равен 5432).
Для нашего проекта эти параметры такие:
- DBNAME = 'project_sql'
- USER = 'skillfactory'
- PASSWORD = 'cCkxxLVrDE8EbvjueeMedPKt'
- HOST = '84.201.134.129'
- PORT = 5432
git clone https://github.com/galleydata/AnalizeDataWithSQL
Вся информация о работе представлена в jupyter-ноутбуке data-analizing.ipynb.
- Ярослав Москаленко
Применил на практике полученные знания по использованию SQL.