Home
De Manejar
Cancel

Tại sao những người làm website không hoàn toàn muốn bảo vệ website của họ khỏi bị crawl?

Các website hiện nay thì đã không còn dễ lấy dữ liệu như ngày trước nữa vì cấu trúc của các website bây giờ cũng khác xưa rất là nhiều, nó không có các phần được định nghĩa rõ ràng để phân tích nh...

Crawler, một số điều mình chia sẻ về crawler và loạt bài viết về crawler sắp tới?

Crawler, Web Scrape, Web Scraping, thu thập dữ liệu, cào dữ liệu,… chắc là các từ ngữ mà chúng ta hay sử dụng nhất để nói về các công việc tạo ra những chương trình đi phân tích và lấy dữ liệu từ m...

Bài toán phân cụm với Spark ML và xây dựng ứng dụng với Flask

Spark MLlib là thư viện học máy của Spark được tạo ra với mục tiêu có thể giải quyết các bài toán ML một cách dễ dàng hơn. Mặc dùng các thư viện mà MLlib mang lại không phong phú bằng python với nh...

Giải thích về các chế độ chính khi chạy Spark

Khi sử dụng Spark các bạn có thể thấy có rất là nhiều các chế độ khác nhau như local, standalone, yarn,… chắc hẳn rất nhiều người còn chưa hiểu rõ về các chế độ này nhất là khi mình sử dụng các chế...

Spark Streaming với Kafka

Trong 2 bài ví dụ về Spark Streaming trước thì mình đã minh họa về Spark Streaming nhận dữ liệu qua socket và xử lý chúng. Tuy nhiên, trong thực tế thì ít khi chúng ta sử dung socket để truyền và x...

Cài đặt Zeppelin Notebook

Chắc chúng ta quen nhiều hơn với Jupyter notebook và Zeppelin notebook có thể còn chưa được nghe tới bao giờ. Zeppelin notebook hay Apache Zeppelin là một ứng dụng dựa trên web cho phép phân tương ...

Project Log Analyzer với Spark Streaming

Bài viết trước chúng ta đã làm quen với Spark Streaming với một project đơn giản về lọc từ, trong bài viết này chúng ta sẽ xem xét project phức tạp hơn một tí về phân tích log. Chuẩn bị Project T...

Project Socket Stream với Spark Streaming

Trong bài viết này chúng ta sẽ đi xét một ví dụ nhỏ với Spark Streaming. Công việc của chúng ta là tạo một project với Spark Streaming lắng nghe ở cổng 7777 và lọc những dòng có chứa từ “error” rồi...

Đa luồng và đa tiến trình trong Python

Trong một lần phỏng vấn mình có được hỏi về các khái niệm này, lúc đó do kiến thức mình hiểu có phần bị sai vì thế mình quyết định là tìm hiểu lại và viết lại một số vấn đề trong lập trình đa luồng...

Spark Streaming

Tổng quan Spark Streaming là một bộ mở rộng của core Spark API cho phép mở rộng, thông lượng cao, có khả năng chịu lỗi. Spark Streaming được thiết kế để xử lý dữ liệu dạng streams. Dữ liệu đầu vào...