Curso maestro de Web Scraping: Extracción de Datos de la Web
- Description
- Curriculum
- FAQ
- Reviews
Si buscabas convertirte en un experto en la extracción de datos de la web estás en el curso correcto. Estás viendo el curso más completo sobre Web Scraping de toda la Internet.
Te enseñaré desde CERO los fundamentos del Web Scraping de una manera muy sencilla de entender. ¡VOY DIRECTO AL GRANO! Realizaremos extracción de datos de más de 20 páginas web (FACEBOOK, YOUTUBE, HACKERNEWS, AIRBNB, OLX, MERCADO LIBRE, GOOGLE REVIEWS, ACCUWEATHER, TRIP ADVISOR, entre otras), sin detenernos en explicaciones complejas que no te servirán de mucho. En muy poco tiempo vas a aprender Web Scraping y te vas a enamorar del mundo de la extracción de datos!
En este curso utilizaremos Python. El mejor lenguaje de programación para principiantes y uno de los favoritos a la hora de hacer Web Scraping.
-
Si no sabes programar, te explicaré los fundamentos de la programación de una manera rápida y muy sencilla en la primera sección del curso.
-
Aprenderemos a hacer Web Scraping de:
-
Una página (NIVEL 1)
-
Varias páginas al mismo tiempo (NIVEL 2)
-
Páginas con carga dinámica (NIVEL 3)
-
APIs, iframes y scripts (NIVEL 4)
-
Páginas con CAPTCHAs, protección de Cloudflare, Token CSRF y autenticación por LOGIN (NIVEL 5)
-
y Web Scraping utilizando Proxies.
-
-
Finalmente existe un NIVEL EXTRA que contiene lo siguiente:
-
Extracción de imágenes y archivos
-
Automatización de extracciones
-
Almacenamiento de datos en base de datos (MongoDB)
-
Actualizaciones periódicas de los datos almacenados.
-
-
Practicaremos extrayendo datos de más de 20 sitios web: YOUTUBE, FACEBOOK, X (TWITTER), HACKERNEWS, OLX, AIRBNB, MERCADO LIBRE, DIARIO EL UNIVERSO, WIKIPEDIA, STACKOVERFLOW, W3SCHOOLS, TRIPADVISOR, GOOGLE REVIEWS, GOOGLE SCHOLAR, GITHUB, ACCUWEATHER, URBANIA, ZONAPROP, FOOTDISTRICT, IGN, entre otros.
-
Vamos a aprender a utilizar 7 librerías modernas para hacer Web Scraping: LXML, Requests, Scrapy, Selenium, Beautiful Soup, Requests-HTML y Cloudscraper. Cada una con sus PROS y sus CONS. De tal forma que tengas un arsenal de herramientas para elegir al momento de hacer tu siguiente extracción de datos. Además veremos otras librerías tales como: Pillow, schedule, time, json y pymongo.
-
No nos detendremos en detalles complejos ni en teorías avanzadas. ¡Solamente veremos lo realmente necesario para que te conviertas en un maestro del Web Scraping!
-
Este curso utiliza la PRÁCTICA como herramienta principal para aprender. Es por esto que extraemos datos de +20 sitios web que suman un total de casi 19 horas de pura práctica extrayendo datos.
-
Soporte para instalación de librerías, preguntas sobre el curso, y extracciones personalizadas con las que tengas problemas.
-
¡El curso es actualizado constantemente! ¡Este 2024 ya tenemos 8 clases nuevas!
Este curso es tu mejor opción si:
-
Quieres convertirte en un maestro del Web Scraping de la forma más sencilla posible.
-
Quieres aprender Web Scraping practicando con muchos ejemplos de páginas reales.
-
Has tenido dificultades con otros cursos, y has llegado a pensar que la programación no es lo tuyo.
-
Eres un profesional en otra área diferente a la informática (estadística, matemática, biologia, ingenierías, etc) que necesita aprender a extraer datos de la web ¡YA!
-
Quieres aprender Web Scraping sin detenerte en explicaciones largas y complejas.
-
Quieres aprender desde los fundamentos hasta la limpieza, almacenamiento y actualización de los datos que extraigas.
-
3¿Qué son los lenguajes de programación?
Empezaremos desde los fundamentos del todo. Empezaremos este curso viendo, qué son los lenguajes de programación.
-
4¿Qué es Python? + Instalación
-
5Variables
-
6Tipos de Datos
-
7Operaciones entre Variables
-
8Salidas por Pantalla
-
9Librerías
-
10Pedirle datos al Usuario
-
11Operadores Lógicos y Condicionales
-
12Prueba de Python #1
Hemos llegado a nuestra primera prueba de Python. No te preocupes, son pruebas muy sencillas para asegurarnos de que tienes bien claros los conceptos que hemos visto hasta este moment.
¡Buena suerte!
-
13Lazos
-
14Colecciones PT 1 (Listas, Cadenas, Tuplas)
-
15Prueba de Python #2
Es importante que tengas muy claro los conocimientos vistos. Ya que en las siguientes secciones no me detendré a explicar estos conceptos si es que los utilizo. ¡Buena suerte!
-
16Colecciones PT 2 (Conjuntos, Diccionarios)
-
17Funciones
-
18Manejo de Archivos
-
19Manejo de Errores
-
20Prueba de Python #3
Esta prueba será un poco más difícil que las anteriores. Es muy importante que tengas claro todos los conocimientos de Python. Ya que en el curso de Web Scraping, no me detendré a explicar cosas que sean básicas de Python. Tus conocimientos tienen que estar 100% afianzados antes de que puedas continuar con el curso. ¡Buena suerte!
-
21Clases y Objetos (POO)
-
22¿Qué es el Web Scraping?
En esta clase veremos qué es el Web Scraping, la importancia del Web Scraping, y cuáles son sus ventajas y desventajas.
-
23Páginas Web: HTML
-
24Prueba #1
"¿Tán rápido y ya me estás evaluando?" - te preguntarás. ¡Pues sí! Luego del video anterior tal vez puedes sentirse un poco abrumado. Tal vez un poco desanimado. Pero no te preocupes. Con esta prueba vas a afianzar tus conocimientos, y te darás cuenta que lo verdaderamente esencial que debes de saber no es complejo.
Si no obtienes un buen puntaje, vuelve a ver los videos anteriores. Ya que, tener muy claro cómo se estructura un HTML es vital para hacer Web Scraping y para seguir avanzando a paso firme.
¡Buena suerte en la prueba!
-
25Arquitectura Cliente-Servidor
-
26URLs
-
27Tipos de Web Scraping
-
28Pasos del Web Scraping
-
29Prueba #2
-
30Tu espada: Tutorial de XPATH | PT. 1
-
31Tu espada: Tutorial de XPATH | PT. 2
-
32Tu escudo: ÉTICA
-
33Prueba #3
-
34¿Cuándo utilizar cada herramienta?
-
35Introducción
-
36Instalación de Librerías con Python 3.10 o mayor
-
37Instalación de Librerías con Python MENOR a 3.10
-
38Requests y lxml (Extracción de WIKIPEDIA)
-
39Requests y Beautiful Soup (Extracción de STACKOVERFLOW)
-
40Scrapy: Introducción
-
41Scrapy: Soporte para Instalación
-
42Scrapy (Extracción de STACKOVERFLOW)
-
43AYUDA: El archivo CSV me aparece vacío!
-
44ATENCIÓN: Scrapy no funciona con todas las páginas webs
-
45Scrapy (Extracción de DIARIO EL UNIVERSO)
-
46Ejecutar Scrapy sin la Terminal (+ Jupyter Notebook, Google Colab o Similares)
-
47Introducción: Scraping Vertical y Horizontal
-
48Web Scraping Vertical (Extracción de TRIPADVISOR con Scrapy PT. 1)
-
49Scrapy Map Compose (Extracción de TRIPADVISOR con Scrapy PT.2)
-
50Web Scraping Horizontal y Vertical (Extracción de MERCADO LIBRE con Scrapy)
-
51Varios tipos de Items y 2 dimensiones horizontales (Extracción de IGN)
-
522 niveles de profundidad (Extracción de TRIP ADVISOR con Scrapy PT.3)
-
53Scrapy Link Extractor (Extracción de FARMACIA CRUZ VERDE)
-
54Múltiples URLs Semilla (Extracción de URBANIA PT. 1)
-
55Web Scraping en la Nube con CRAWLERA (Extracción de URBANIA PT. 2)
-
56Scrapy bajo el Microscopio (Primer Requerimiento, Delay, CSVs y Concurrencia)
-
57Introducción: SELENIUM
-
58Versión de Selenium, Google Chrome, y Ejecución en Google Colab
-
59Carga de Datos por Clicks (Extracción de OLX)
-
60Descarga Automática del Webdriver y Headless Mode (Extracción de AIRBNB) [2023]
-
61Esperando eventos (Extracción de OLX)
-
62Web Scraping Dinámico Horizontal y Vertical (Extracción de MERCADO LIBRE)
-
63Scrolling y Manejo de Tabs (Extracción de GOOGLE PLACES)
-
64Formularios y Login (Extracción de TWITTER)
-
65Detectando carga dinámica (¿Cuándo utilizar Selenium?)
-
66Prueba: NIVEL 1, 2 y 3
¡ENHORABUENA!
En este punto del curso, ya te encuentras totalmente preparado para hacer Web Scraping. Has pasado el Nivel 1, 2 y 3 del Web Scraping. Y hemos practicado con muchos ejemplos de la vida real en cada uno hasta el cansancio.
Es hora de hacer una pequeña prueba para reforzar tus conocimientos aprendidos. Vamos a visualizar algunos sitios web y tendrás que decidir con los conocimientos aprendidos cual es la mejor herramienta para extraer datos del mismo.
¡Buena suerte!
-
67Introducción
-
68¿Qué es una API?
En esta clase voy directo al grano y te explico qué es una API, cómo funcionan las APIs, y para qué sirven las APIs. Además, te digo las ventajas de utilizarlas.
-
69¿Qué es JSON?
-
70¿Qué es una RESTful API?
En esta clase voy directo al grano y te explico en español todo lo que necesitas saber sobre REST y RESTful APIs. Además, te explico la diferencia entre una API, REST, y una RESTful API.
-
71Extracción de datos de APIs
-
72Web Scraping y Pandas
-
73Extracción de datos de iframes (W3SCHOOLS)
-
74Extracción de Datos de Tag Script (EJEMPLO 1 - GOB.PE)
-
75Extracción de Datos de Tag Script (EJEMPLO 2 - FootDistrict)
-
76Carga Dinámica de Datos con Requests (Requests-HTML)
-
77Introducción a la Autenticación Online
-
78Autenticación por Form Data de Login (Extracción de GITHUB)
-
79Autenticación exclusivamente por API (Extracción de GITHUB)
-
80Autenticación con Scrapy Spider (Extracción de GITHUB)
-
81¿Qué son los captchas?
-
82Resolviendo captchas manualmente
-
83Resolviendo captchas de manera automática (2CAPTCHA)
-
84Extracción de Páginas Protegidas por Cloudflare (Extracción de ZONAPROP)
-
85Extracción de API protegida con autenticación por Token CSRF