<feed xmlns="http://www.w3.org/2005/Atom"> <id>https://demanejar.github.io/</id><title>De Manejar</title><subtitle>(c) Copyright Demanejar. Một website nhỏ về bigdata được viết bởi team Demanejar.</subtitle> <updated>2026-01-02T21:02:53+07:00</updated> <author> <name>demanejar</name> <uri>https://demanejar.github.io/</uri> </author><link rel="self" type="application/atom+xml" href="https://demanejar.github.io/feed.xml"/><link rel="alternate" type="text/html" hreflang="en-US" href="https://demanejar.github.io/"/> <generator uri="https://jekyllrb.com/" version="4.4.1">Jekyll</generator> <rights> © 2026 demanejar </rights> <icon>/assets/img/favicons/favicon.ico</icon> <logo>/assets/img/favicons/favicon-96x96.png</logo> <entry><title>Tìm hiểu tổng quan k8s</title><link href="https://demanejar.github.io/posts/k8s/" rel="alternate" type="text/html" title="Tìm hiểu tổng quan k8s" /><published>2025-04-12T20:52:00+07:00</published> <updated>2026-01-02T21:02:08+07:00</updated> <id>https://demanejar.github.io/posts/k8s/</id> <content src="https://demanejar.github.io/posts/k8s/" /> <author> <name>demanejar</name> </author> <category term="Blogging" /> <summary> Một số tìm hiểu ban đầu về k8s. Mối liên hệ giữa containerd và docker Low level run time hiện tại chủ yếu là runc High level runtime hiện tại chủ yếu là dùng containerd graph TD; A[Docker CLI]--&amp;gt;|docker run ...|B[Docker Engine]; B[Docker Daemon]; B --&amp;gt;C[Containerd]; C --&amp;gt; D[Open Container Initiative OCI. 2015 by Docker]; D --&amp;gt; |Implement|E[runc Gola... </summary> </entry> <entry><title>Cài đặt Selenium Middleware cho Scrapy</title><link href="https://demanejar.github.io/posts/selenium-middleware-custom-scrapy/" rel="alternate" type="text/html" title="Cài đặt Selenium Middleware cho Scrapy" /><published>2024-12-03T20:52:00+07:00</published> <updated>2026-01-02T21:02:08+07:00</updated> <id>https://demanejar.github.io/posts/selenium-middleware-custom-scrapy/</id> <content src="https://demanejar.github.io/posts/selenium-middleware-custom-scrapy/" /> <author> <name>demanejar</name> </author> <category term="Crawler" /> <summary> Scrapy có cung cấp thư viện scrapy-selenium cho phép việc sử dụng Seleinum để lấy dữ liệu trang web trước khi trả về cho spdier xử lý. Tuy nhiên trong 1 số trường hợp ví dụ mình không muốn dùng selenium bình thường mà mình muốn dùng undetected-chromedriver vì nó giúp bypass Cloudflare trên website, muốn add proxy thông qua extension của chrome, muốn scroll lên xuống và một số hành động trước kh... </summary> </entry> <entry><title>Một số thủ thuật nhỏ khi crawl data</title><link href="https://demanejar.github.io/posts/some-trick-crawler/" rel="alternate" type="text/html" title="Một số thủ thuật nhỏ khi crawl data" /><published>2024-10-01T20:52:00+07:00</published> <updated>2026-01-02T21:02:08+07:00</updated> <id>https://demanejar.github.io/posts/some-trick-crawler/</id> <content src="https://demanejar.github.io/posts/some-trick-crawler/" /> <author> <name>demanejar</name> </author> <category term="Crawler" /> <summary> Biến của Javascript có thể chứa dữ liệu cần thiết khi crawl website render bằng Javascript Khi crawl các trang web render bằng Javascript như bài viết trước chúng ta phải sử dụng một trình biên dịch phía trước để dịch các đoạn mã Javascript này để chúng render ra HTML trước khi tiến hành phân tích. Tuy nhiên rất nhiều trang web khi load HTML về nó đã mang dữ liệu rồi. Ví dụ như Youtube khi loa... </summary> </entry> <entry><title>Spline | Data Lineage Tracking And Visualization Solution</title><link href="https://demanejar.github.io/posts/data-lineage-tracking-and-visualization-solution-with-spline/" rel="alternate" type="text/html" title="Spline | Data Lineage Tracking And Visualization Solution" /><published>2024-03-14T20:52:00+07:00</published> <updated>2026-01-02T21:02:08+07:00</updated> <id>https://demanejar.github.io/posts/data-lineage-tracking-and-visualization-solution-with-spline/</id> <content src="https://demanejar.github.io/posts/data-lineage-tracking-and-visualization-solution-with-spline/" /> <author> <name>demanejar</name> </author> <category term="Blogging" /> <summary> Spline là một công cụ OpenSource cho phép tự động theo dõi Data Lineage và Data Pipeline Structure. Công việc phổ biến nhất của nó là theo dõi và trực quan hóa Data Lineage cho Spark. Tổng quan Spline Spline là một công cụ mã nguồn mở và miễn phí để theo dõi tự động dòng dữ liệu (data lineage) và cấu trúc đường dẫn dữ liệu (pipeline structure) trong các dự án. Phổ biến là việc sử dụng Spline ... </summary> </entry> <entry><title>Hướng dẫn Airflow HA</title><link href="https://demanejar.github.io/posts/airflow-ha/" rel="alternate" type="text/html" title="Hướng dẫn Airflow HA" /><published>2024-02-18T20:52:00+07:00</published> <updated>2026-01-02T21:02:08+07:00</updated> <id>https://demanejar.github.io/posts/airflow-ha/</id> <content src="https://demanejar.github.io/posts/airflow-ha/" /> <author> <name>demanejar</name> </author> <category term="Blogging" /> <summary> Trong bài này mình sẽ hướng dẫn cài đặt Airflow và cài HA cho nó. môi trường sử dụng là máy ảo virtualbox tạo 2 máy ảo với địa chỉ cố định, add user và cập quyền ssh từ host VAGRANT_COMMAND = ARGV[0] Vagrant.configure("2") do |config| if VAGRANT_COMMAND == "ssh" config.ssh.username = 'vagrant' end config.vm.box = "ubuntu/bionic64" # Chọn box bạn muốn sử dụng # Kh... </summary> </entry> </feed>
