Posts
De Manejar
Cancel

Giải thích về các chế độ chính khi chạy Spark

Khi sử dụng Spark các bạn có thể thấy có rất là nhiều các chế độ khác nhau như local, standalone, yarn,… chắc hẳn rất nhiều người còn chưa hiểu rõ về các chế độ này nhất là khi mình sử dụng các chế...

Spark Streaming với Kafka

Trong 2 bài ví dụ về Spark Streaming trước thì mình đã minh họa về Spark Streaming nhận dữ liệu qua socket và xử lý chúng. Tuy nhiên, trong thực tế thì ít khi chúng ta sử dung socket để truyền và x...

Cài đặt Zeppelin Notebook

Chắc chúng ta quen nhiều hơn với Jupyter notebook và Zeppelin notebook có thể còn chưa được nghe tới bao giờ. Zeppelin notebook hay Apache Zeppelin là một ứng dụng dựa trên web cho phép phân tương ...

Project Log Analyzer với Spark Streaming

Bài viết trước chúng ta đã làm quen với Spark Streaming với một project đơn giản về lọc từ, trong bài viết này chúng ta sẽ xem xét project phức tạp hơn một tí về phân tích log. Chuẩn bị Project T...

Project Socket Stream với Spark Streaming

Trong bài viết này chúng ta sẽ đi xét một ví dụ nhỏ với Spark Streaming. Công việc của chúng ta là tạo một project với Spark Streaming lắng nghe ở cổng 7777 và lọc những dòng có chứa từ “error” rồi...

Đa luồng và đa tiến trình trong Python

Trong một lần phỏng vấn mình có được hỏi về các khái niệm này, lúc đó do kiến thức mình hiểu có phần bị sai vì thế mình quyết định là tìm hiểu lại và viết lại một số vấn đề trong lập trình đa luồng...

Spark Streaming

Tổng quan Spark Streaming là một bộ mở rộng của core Spark API cho phép mở rộng, thông lượng cao, có khả năng chịu lỗi. Spark Streaming được thiết kế để xử lý dữ liệu dạng streams. Dữ liệu đầu vào...

Window function, pivot trong Spark SQL (Part 2)

Nếu bạn chưa xem phần 1 thì có thể xem lại TẠI ĐÂY nha, bài viết hôm nay mình sẽ giới thiệu tiếp tới mọi người một số ví dụ về window function và pivot sâu hơn để mọi người có thể hiểu rõ hơn về wi...

Window function, pivot trong Spark SQL

Window aggregate functions (hay thường được gọi tắt là window functions hoặc windowed aggregates) là hàm giúp hỗ trợ tính toán trên 1 nhóm các bản ghi được gọi là cửa sổ mà có liên quan tới bản ghi...

Phân tích dữ liệu bán lẻ với Spark SQL

Như đã tìm hiểu ở bài viết trước về Spark SQL, Dataframe và Dataset, Spark SQL là một mô hình để xử lý dữ liệu có cấu trúc của Spark rất phổ biến. Trong bài viết này chúng ta sẽ sử dụng Spark SQL đ...