Skip to content

galleydata/AnalizeDataWithSQL

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 

Repository files navigation

# Проект 2. Применение SQL для анализа базы данных резюме

Оглавление

  1. Описание проекта
  2. Описание данных
  3. Зависимости
  4. Установка проекта
  5. Использование проекта
  6. Авторы
  7. Выводы

Описание проекта

SQL(Structured Query Language) – это язык, который часто используется для взаимодействия с базами данных через Системы Управления Базами Данных (СУБД). SQL применяется для создания, модификации и управления данными. Существует множество СУБД, наиболее распространённые из них — MySQL, PostgreSQL, Oracle, Microsoft SQL Server. В свою очередь, база данных — это организованная структура для хранения, изменения и обработки взаимосвязанной информации. В современном мире базы данных применяются практически везде — без них не обходится ни одна большая компания (от интернет-магазинов до банков).

Базы данных могут не только возвращать данные, но и выполнять различные расширенные вычисления. Используя основные принципы языка SQL в данном проекте:

  1. Проведем предварительный анализ данных
  2. Анализ вакансий
  3. Анализ работодателей
  4. Подробно рассмотрим данные вакансий и работодателей связанных с программным обеспечением

Цель проекта — Провести анализ данных связанных с вакансиями и работодателями в сфере Data Science. При помощи манипуляций с данными необходимо понять, что из себя представляют данные и насколько они соответствуют целям будущего проекта создания модели машинного обучения, которая будет рекомендовать вакансии клиентам агентства. В литературе эта часть работы над ML-проектом называется Data Understanding, или анализ данных.

Данный проект направлен на демонстрацию применения методов использования SQL для анализа данных.

О структуре проекта:

  • images - папка с изображениями, необходимыми для проекта
  • data-analizing.ipynb - jupyter-ноутбук, содержащий основной код проекта, в котором демонстрируются методы использования sql
  • requirements.txt - файл с зафиксированными версиями библиотек.

Описание данных

Данные хранятся под управлением СУБД PostgreSQL, а работать и выполнять SQL-запросы будем средствами Python. Для решения этой задачи требуется некоторое средство, которое будет связывать Python и PostgreSQL. Таким средством является пакет psycopg2. Установить данный пакет на любой платформе можно одним способом — с помощью pip. Запустите в отдельной ячейке Jupyter Notebook следующий код: pip install psycopg2. Для подключения нам потребуются следующие данные:

  • dbname — название базы, к которой нужно подключиться;
  • user — имя пользователя в СУБД;
  • password — пароль;
  • host — адрес, по которому нужно подключиться;
  • port — порт, к которому нужно подключиться (по умолчанию равен 5432).

Для нашего проекта эти параметры такие:

  • DBNAME = 'project_sql'
  • USER = 'skillfactory'
  • PASSWORD = 'cCkxxLVrDE8EbvjueeMedPKt'
  • HOST = '84.201.134.129'
  • PORT = 5432

Установка проекта

git clone https://github.com/galleydata/AnalizeDataWithSQL

Использование

Вся информация о работе представлена в jupyter-ноутбуке data-analizing.ipynb.

Авторы

  • Ярослав Москаленко

Выводы

Применил на практике полученные знания по использованию SQL.

About

Применение SQL для анализа данных

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published