https://demanejar.github.io/De Manejar(c) Copyright Demanejar. Một website nhỏ về bigdata được viết bởi team Demanejar. 2024-03-19T08:22:37+07:00 demanejar https://demanejar.github.io/ Jekyll © 2024 demanejar /assets/img/favicons/favicon.ico /assets/img/favicons/favicon-96x96.png Hướng dẫn Airflow HA2024-02-18T20:52:00+07:00 2024-03-09T12:00:57+07:00 https://demanejar.github.io/posts/airflow-ha/ demanejar Trong bài này mình sẽ hướng dẫn cài đặt Airflow và cài HA cho nó. môi trường sử dụng là máy ảo virtualbox tạo 2 máy ảo với địa chỉ cố định, add user và cập quyền ssh từ host VAGRANT_COMMAND = ARGV[0] Vagrant.configure("2") do |config| if VAGRANT_COMMAND == "ssh" config.ssh.username = 'vagrant' end config.vm.box = "ubuntu/bionic64" # Chọn box bạn muốn sử dụng # Kh... Crawl báo song ngữ với Scrapy và Splash2023-04-15T20:52:00+07:00 2024-03-12T08:47:02+07:00 https://demanejar.github.io/posts/scrapy-with-splash/ demanejar Tìm hiểu thêm về khái niệm, ưu nhược điểm của Client Side và Server Side Rendering qua bài viết Client-Side và Server-Side Rendering. Chúng ta sẽ thấy có một số website client side rendering, các đoạn mã HTML của nó sẽ được gen ra ở phía trình duyệt người dùng, vì thế khi crawl mặc dù F12 thấy đầy đủ các phần tử của website nhưng đoạn mã tải về lại toàn mã Javascript và không tìm thấy các phần... Giới thiệu Scrapy Shell2023-04-01T20:52:00+07:00 2023-06-10T23:08:04+07:00 https://demanejar.github.io/posts/scrapy-shell/ demanejar Mỗi lần viết 1 spider chúng ta phải viết nhiều các đoạn css selector, xpath để phân tích thông tin mà nhiều lúc không biết nó đúng hay sai. Mỗi lần như vậy thì lại phải chạy project rồi in ra thông tin mình crawl được xem có đúng hay không. Làm như vậy thì rất mất thời gian, vì thế Scrapy có cung cấp một công cụ rất hay để kiểm tra trước xem css selector hay xpath chúng ta viết đã đúng hay chưa... PHP Scraper2023-03-15T20:52:00+07:00 2023-03-15T20:52:00+07:00 https://demanejar.github.io/posts/php-scraper/ demanejar Nói về crawl chắc hẳn mọi thứ đều đổ dồn về Python và các framework xây dựng trên Python như Scrapy, Beautiful Soup hay Selenium sử dụng Python,… Trong bài viết này ngoại truyện một tí, chúng ta sẽ nói về một ngôn ngữ mà không được mạnh lắm về mảng này, PHP. Sẽ có rất nhiều lúc mà Python sẽ không giải quyết hết được các vấn đề về crawl của bạn mà bạn phải cần tới ngôn ngữ đang sử dụng cho webs... Crawl 1000 trang báo với Scrapy và MySQL2023-03-01T20:52:00+07:00 2023-06-06T23:43:39+07:00 https://demanejar.github.io/posts/crawl-1000-website-new-with-scrapy/ demanejar Nếu với mỗi website lại viết 1 spider để phân tích thông tin thì sẽ rất mất thời gian, nhất là với các website tin tức, có hàng ngàn các website tin tức khác nhau và chúng còn mọc ra mỗi ngày. Vậy bây giờ có một bài toán đặt ra là cần phân tích nội dung của 1000 website báo chí, và nhiệm vụ của chúng ta là phải lập lịch crawl 1000 website báo chí này hàng ngày. Việc lập lịch thì chúng ta có th...