De Manejar

https://demanejar.github.io/De Manejar(c) Copyright Demanejar. Một website nhỏ về bigdata được viết bởi team Demanejar. 2024-10-27T13:20:43+07:00 demanejar https://demanejar.github.io/ Jekyll © 2024 demanejar /assets/img/favicons/favicon.ico /assets/img/favicons/favicon-96x96.png Một số thủ thuật nhỏ khi crawl data2024-10-01T20:52:00+07:00 2024-10-03T23:09:31+07:00 https://demanejar.github.io/posts/some-trick-crawler/ demanejar

Biến của Javascript có thể chứa dữ liệu cần thiết khi crawl website render bằng Javascript Khi crawl các trang web render bằng Javascript như bài viết trước chúng ta phải sử dụng một trình biên dịch phía trước để dịch các đoạn mã Javascript này để chúng render ra HTML trước khi tiến hành phân tích. Tuy nhiên rất nhiều trang web khi load HTML về nó đã mang dữ liệu rồi. Ví dụ như Youtube khi loa...

Spline | Data Lineage Tracking And Visualization Solution2024-03-14T20:52:00+07:00 2024-05-07T21:23:33+07:00 https://demanejar.github.io/posts/data-lineage-tracking-and-visualization-solution-with-spline/ demanejar

Spline là một công cụ OpenSource cho phép tự động theo dõi Data Lineage và Data Pipeline Structure. Công việc phổ biến nhất của nó là theo dõi và trực quan hóa Data Lineage cho Spark. Tổng quan Spline Spline là một công cụ mã nguồn mở và miễn phí để theo dõi tự động dòng dữ liệu (data lineage) và cấu trúc đường dẫn dữ liệu (pipeline structure) trong các dự án. Phổ biến là việc sử dụng Spline ...

Hướng dẫn Airflow HA2024-02-18T20:52:00+07:00 2024-05-07T21:23:33+07:00 https://demanejar.github.io/posts/airflow-ha/ demanejar

Trong bài này mình sẽ hướng dẫn cài đặt Airflow và cài HA cho nó. môi trường sử dụng là máy ảo virtualbox tạo 2 máy ảo với địa chỉ cố định, add user và cập quyền ssh từ host VAGRANT_COMMAND = ARGV[0] Vagrant.configure("2") do |config| if VAGRANT_COMMAND == "ssh" config.ssh.username = 'vagrant' end config.vm.box = "ubuntu/bionic64" # Chọn box bạn muốn sử dụng # Kh...

Crawl báo song ngữ với Scrapy và Splash2023-04-15T20:52:00+07:00 2024-03-12T08:47:02+07:00 https://demanejar.github.io/posts/scrapy-with-splash/ demanejar

Tìm hiểu thêm về khái niệm, ưu nhược điểm của Client Side và Server Side Rendering qua bài viết Client-Side và Server-Side Rendering. Chúng ta sẽ thấy có một số website client side rendering, các đoạn mã HTML của nó sẽ được gen ra ở phía trình duyệt người dùng, vì thế khi crawl mặc dù F12 thấy đầy đủ các phần tử của website nhưng đoạn mã tải về lại toàn mã Javascript và không tìm thấy các phần...

Giới thiệu Scrapy Shell2023-04-01T20:52:00+07:00 2023-06-10T23:08:04+07:00 https://demanejar.github.io/posts/scrapy-shell/ demanejar

Mỗi lần viết 1 spider chúng ta phải viết nhiều các đoạn css selector, xpath để phân tích thông tin mà nhiều lúc không biết nó đúng hay sai. Mỗi lần như vậy thì lại phải chạy project rồi in ra thông tin mình crawl được xem có đúng hay không. Làm như vậy thì rất mất thời gian, vì thế Scrapy có cung cấp một công cụ rất hay để kiểm tra trước xem css selector hay xpath chúng ta viết đã đúng hay chưa...