Cancel

Spark Streaming

Tổng quan Spark Streaming là một bộ mở rộng của core Spark API cho phép mở rộng, thông lượng cao, có khả năng chịu lỗi. Spark Streaming được thiết kế để xử lý dữ liệu dạng streams. Dữ liệu đầu và...

Sep 16, 2021 2021-09-16T20:52:00+07:00 4 min

Window function, pivot trong Spark SQL (Part 2)

Nếu bạn chưa xem phần 1 thì có thể xem lại TẠI ĐÂY nha, bài viết hôm nay mình sẽ giới thiệu tiếp tới mọi người một số ví dụ về window function và pivot sâu hơn để mọi người có thể hiểu rõ hơn về wi...

Sep 14, 2021 2021-09-14T08:52:00+07:00 10 min

Window function, pivot trong Spark SQL

Window aggregate functions (hay thường được gọi tắt là window functions hoặc windowed aggregates) là hàm giúp hỗ trợ tính toán trên 1 nhóm các bản ghi được gọi là cửa sổ mà có liên quan tới bản ghi...

Sep 9, 2021 2021-09-09T08:52:00+07:00 7 min

Phân tích dữ liệu bán lẻ với Spark SQL

Như đã tìm hiểu ở bài viết trước về Spark SQL, Dataframe và Dataset, Spark SQL là một mô hình để xử lý dữ liệu có cấu trúc của Spark rất phổ biến. Trong bài viết này chúng ta sẽ sử dụng Spark SQL đ...

Sep 2, 2021 2021-09-02T20:52:00+07:00 7 min

Spark SQL, Dataframe và Dataset

Spark SQL là một mô hình để xử lý dữ liệu có cấu trúc của Spark rất phổ biến. Interfaces cung cấp bởi Spark SQL có thêm các thông tin về cấu trúc của dữ liệu và các tính toán đang được thực hiện. V...

Aug 26, 2021 2021-08-26T20:52:00+07:00 10 min

Chương trình Word Count với spark-submit và spark-shell

Wordcount cũng là một chương trình kinh điển khi nhắc tới Spark, một phần cũng là để so sánh hiệu năng với chính Hadoop MapReduce. Trong bài viết này mình sẽ hướng dẫn mọi người tạo và chạy chương ...

Aug 24, 2021 2021-08-24T20:52:00+07:00 4 min

Cài đặt Apache Spark standalone

Apache Spark là một framework dùng trong xử lý dữ liệu lớn. Nền tảng này trở nên phổ biến rộng rãi do dễ sử dụng và tốc độ xử lý dữ liệu được cải thiện hơn Hadoop. Apache Spark có thể phân phối khố...

Aug 19, 2021 2021-08-19T20:52:00+07:00 2 min

Spark RDD

Resilient Distributed Datasets (RDDs) Resilient Distributed Datasets (RDD) là một cấu trúc dữ liệu cơ bản của Spark. Nó là một tập hợp bất biến phân tán của một đối tượng có thể hoạt động song son...

Aug 17, 2021 2021-08-17T20:52:00+07:00 7 min

Giới thiệu tổng quan về Spark

Tổng quan về Apache Spark Spark ban đầu được Matei Zaharia bắt đầu tại AMPLab của UC Berkeley vào năm 2009 và được mở nguồn vào năm 2010 theo giấy phép BSD. Vào năm 2013, dự án đã được quyên góp c...

Aug 12, 2021 2021-08-12T20:52:00+07:00 6 min

Tổng hợp các câu hỏi về Apache Hadoop

Mục tiêu chính của Apache Hadoop Lưu trữ dữ liệu khả mở và xử lý dữ liệu mạnh mẽ. Tiết kiệm chi phí khi lưu trữ và xử lý lượng dữ liệu lớn. Bạn có thể xem thêm chi tiết mục tiêu của Hadoop TẠI ĐÂ...

Aug 9, 2021 2021-08-09T20:52:00+07:00 5 min

Recent Update

Trending Tags