Cancel

Tìm hiểu tổng quan k8s

Một số tìm hiểu ban đầu về k8s. Mối liên hệ giữa containerd và docker Low level run time hiện tại chủ yếu là runc High level runtime hiện tại chủ yếu là dùng containerd graph TD; A...

Apr 12, 2025 2025-04-12T20:52:00+07:00 2 min

Cài đặt Selenium Middleware cho Scrapy

Scrapy có cung cấp thư viện scrapy-selenium cho phép việc sử dụng Seleinum để lấy dữ liệu trang web trước khi trả về cho spdier xử lý. Tuy nhiên trong 1 số trường hợp ví dụ mình không muốn dùng sel...

Dec 3, 2024 2024-12-03T20:52:00+07:00 2 min

Một số thủ thuật nhỏ khi crawl data

Biến của Javascript có thể chứa dữ liệu cần thiết khi crawl website render bằng Javascript Khi crawl các trang web render bằng Javascript như bài viết trước chúng ta phải sử dụng một trình biên dị...

Oct 1, 2024 2024-10-01T20:52:00+07:00 4 min

Spline | Data Lineage Tracking And Visualization Solution

Spline là một công cụ OpenSource cho phép tự động theo dõi Data Lineage và Data Pipeline Structure. Công việc phổ biến nhất của nó là theo dõi và trực quan hóa Data Lineage cho Spark. Tổng quan Sp...

Mar 14, 2024 2024-03-14T20:52:00+07:00 4 min

Hướng dẫn Airflow HA

Trong bài này mình sẽ hướng dẫn cài đặt Airflow và cài HA cho nó. môi trường sử dụng là máy ảo virtualbox tạo 2 máy ảo với địa chỉ cố định, add user và cập quyền ssh từ host VAGRANT_COMMAND ...

Feb 18, 2024 2024-02-18T20:52:00+07:00 6 min

Crawl báo song ngữ với Scrapy và Splash

Tìm hiểu thêm về khái niệm, ưu nhược điểm của Client Side và Server Side Rendering qua bài viết Client-Side và Server-Side Rendering. Chúng ta sẽ thấy có một số website client side rendering, các ...

Apr 15, 2023 2023-04-15T20:52:00+07:00 2 min

Giới thiệu Scrapy Shell

Mỗi lần viết 1 spider chúng ta phải viết nhiều các đoạn css selector, xpath để phân tích thông tin mà nhiều lúc không biết nó đúng hay sai. Mỗi lần như vậy thì lại phải chạy project rồi in ra thông...

Apr 1, 2023 2023-04-01T20:52:00+07:00 2 min

PHP Scraper

Nói về crawl chắc hẳn mọi thứ đều đổ dồn về Python và các framework xây dựng trên Python như Scrapy, Beautiful Soup hay Selenium sử dụng Python,… Trong bài viết này ngoại truyện một tí, chúng ta sẽ...

Mar 15, 2023 2023-03-15T20:52:00+07:00 2 min

Crawl 1000 trang báo với Scrapy và MySQL

Nếu với mỗi website lại viết 1 spider để phân tích thông tin thì sẽ rất mất thời gian, nhất là với các website tin tức, có hàng ngàn các website tin tức khác nhau và chúng còn mọc ra mỗi ngày. Vậy...

Mar 1, 2023 2023-03-01T20:52:00+07:00 10 min

Cấu hình proxy cho project Scrapy

Proxy chắc là khái niệm đã không còn xa lạ gì với tất cả mọi người. Với người làm về crawl dữ liệu thì proxy như vật bất ly thân. Trong bài viết này, mình sẽ hướng dẫn cách cấu hình proxy cho proje...

Feb 15, 2023 2023-02-15T20:52:00+07:00 9 min

Recent Update

Trending Tags