Home
De Manejar
Cancel

Chương trình Word Count với spark-submit và spark-shell

Wordcount cũng là một chương trình kinh điển khi nhắc tới Spark, một phần cũng là để so sánh hiệu năng với chính Hadoop MapReduce. Trong bài viết này mình sẽ hướng dẫn mọi người tạo và chạy chương ...

Cài đặt Apache Spark standalone

Apache Spark là một framework dùng trong xử lý dữ liệu lớn. Nền tảng này trở nên phổ biến rộng rãi do dễ sử dụng và tốc độ xử lý dữ liệu được cải thiện hơn Hadoop. Apache Spark có thể phân phối khố...

Spark RDD

Resilient Distributed Datasets (RDDs) Resilient Distributed Datasets (RDD) là một cấu trúc dữ liệu cơ bản của Spark. Nó là một tập hợp bất biến phân tán của một đối tượng có thể hoạt động song song...

Giới thiệu tổng quan về Spark

Tổng quan về Apache Spark Spark ban đầu được Matei Zaharia bắt đầu tại AMPLab của UC Berkeley vào năm 2009 và được mở nguồn vào năm 2010 theo giấy phép BSD. Vào năm 2013, dự án đã được quyên góp c...

Tổng hợp các câu hỏi về Apache Hadoop

Mục tiêu chính của Apache Hadoop Lưu trữ dữ liệu khả mở và xử lý dữ liệu mạnh mẽ. Tiết kiệm chi phí khi lưu trữ và xử lý lượng dữ liệu lớn. Bạn có thể xem thêm chi tiết mục tiêu của Hadoop TẠI ĐÂY...

Hadoop MapReduce và chương trình WordCount cơ bản với MapReduce

MapReduce là một kỹ thuật xử lý và là một mô hình lập trình cho tính toán phân tán để triển khai và xử lý dữ liệu lớn. Hadoop MapReduce là một khung xử lý dữ liệu của Hadoop xây dựng dựa trên ý tưở...

Docker cơ bản và thực hành

Bài viết được tham khảo và ghi chú lại từ series thực hành docker tại Viblo. Link series tại đây: Thực hành Dokcer từ căn bản I. Cài đặt docker và một số khái niệm cơ bản Phần cài đặt có thể tham...

Tìm hiểu về Apache Nifi

Apache nifi được sử dụng để tự động hóa và kiểm soát các luồng dữ liệu giữa các hệ thống. Nó cung cấp cho chúng ta một giao diện trên nền web mà có thể thu thập, xử lý, phân tích dữ liệu . NiFi đư...

Kafka In Depth

Trong quá trình làm bài tập lớn môn lưu trữ và xử lý dữ liệu lớn ở trường mình có biết đến kafka và sử dụng cho project của mình. Tuy nhiên lúc đó mình mới chỉ biết đơn giản nó là một message queue...

Các câu lệnh thao tác với file và thư mục trên HDFS

Các câu lệnh trên HDFS nhìn chung khá là giống với các câu lệnh trên Linux kể cả về chức năng lẫn tên của chúng, nếu bạn nào đã quen với Linux/Ubuntu rồi thì chắc cũng không cần phải học gì nhiều đ...