Web scraping con Python

En este módulo del Diplomado en Ciencia de Datos UC aprenderemos a implementar la técnica de extracción de datos conocida como web scraping usando la librería Beautiful Soup. Las sesiones serán en modalidad online, los días 10 y 17 de junio.

Preparación

Para realizar las actividades planificadas necesitarás las librerías request, beautifulsoup4 y pandas. Se pueden instalar desde PyPI con pip.

pip install beautifulsoup4
pip install requests
pip install pandas
pip install lxml

Si prefieres trabajar en Google Colab, no olvides agregar un signo de exclamación al inicio de cada línea para su instalación, es decir:

!pip install beautifulsoup4
!pip install requests
!pip install pandas
!pip install lxml

Esto le indica a Google Colab que ese no es código de Python, sino código que tiene que ejecutarse en la Terminal.

Si trabajas en Visual Studio Code, es necesario que crees un entorno virtual. Durante la primera clase mostraremos cómo hacerlo. También puedes revisar las indicaciones en este documento.

Atajos de teclado útiles

Los siguientes atajos de teclado serán útiles al explorar las páginas web que escrapearemos.

Acción	Windows / Linux	Mac
Ver el código fuente	ctrl + u	command + u
Abrir el panel de desarrollo	F12 ctrl + shift + i	F12 option + command +i
Abrir el panel de desarrollo con la opción de selección activada	ctrl + shift + c	option/ctrl + command + c

Enlaces ejemplos

A lo largo de la sesión revisaremos algunos sitios web a modo de ejemplo o para discutir algunas ideas. Los compartiremos por el chat de Zoom y quedarán acá también como referencia.

🔗 Sitio web estático

🔗 Sitio web dinámico

🔗 Condiciones de uso

🔗 Licenciamiento y uso del contenido 1

🔗 Licenciamiento y uso del contenido 2

🔗 robots.txt

Actividades

Durante las dos sesiones del módulo realizaremos una serie de actividades para poner en práctica lo aprendido. Iremos escribiendo el código "en vivo" en la clase, por lo que el contenido de los archivos con código se irá actualizando a medida que escribamos en ellos.

Recursos adicionales

Documentación librerías utilizadas

Beautiful Soup

Selenium

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
img		img
.gitignore		.gitignore
README.md		README.md
crear-entorno-virtual.md		crear-entorno-virtual.md
ejercicio-1-final.py		ejercicio-1-final.py
ejercicio-1.html		ejercicio-1.html
ejercicio-2-final.py		ejercicio-2-final.py
ejercicio-4-final.py		ejercicio-4-final.py
ejercicio-5a-selenium.py		ejercicio-5a-selenium.py
ejercicio-5b-selenium.py		ejercicio-5b-selenium.py
estilos.css		estilos.css

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Web scraping con Python

Preparación

Atajos de teclado útiles

Enlaces ejemplos

Actividades

Ejercicio 1: extraer datos de un sitio "mínimo"

Ejercicio 2: el mismo ejercicio, pero ahora en un sitio de verdad

Ejercicio 3: extraer tablas

Ejercicio 4: descargar archivos a partir de enlaces extraídos

Ejercicio 5: demo selenium

Recursos adicionales

Documentación librerías utilizadas

About

Languages

rivaquiroga/taller-web-scraping-python-2023

Folders and files

Latest commit

History

Repository files navigation

Web scraping con Python

Preparación

Atajos de teclado útiles

Enlaces ejemplos

Actividades

Ejercicio 1: extraer datos de un sitio "mínimo"

Ejercicio 2: el mismo ejercicio, pero ahora en un sitio de verdad

Ejercicio 3: extraer tablas

Ejercicio 4: descargar archivos a partir de enlaces extraídos

Ejercicio 5: demo selenium

Recursos adicionales

Documentación librerías utilizadas

About

Resources

Stars

Watchers

Forks

Languages