Cancel

Hadoop MapReduce và chương trình WordCount cơ bản với MapReduce

MapReduce là một kỹ thuật xử lý và là một mô hình lập trình cho tính toán phân tán để triển khai và xử lý dữ liệu lớn. Hadoop MapReduce là một khung xử lý dữ liệu của Hadoop xây dựng dựa trên ý tưở...

Aug 3, 2021 2021-08-03T16:00:00+07:00 10 min

Docker cơ bản và thực hành

Bài viết được tham khảo và ghi chú lại từ series thực hành docker tại Viblo. Link series tại đây: Thực hành Dokcer từ căn bản I. Cài đặt docker và một số khái niệm cơ bản Phần cài đặt có thể tha...

Jul 28, 2021 2021-07-28T20:52:00+07:00 18 min

Tìm hiểu về Apache Nifi

Apache nifi được sử dụng để tự động hóa và kiểm soát các luồng dữ liệu giữa các hệ thống. Nó cung cấp cho chúng ta một giao diện trên nền web mà có thể thu thập, xử lý, phân tích dữ liệu. NiFi đượ...

Jul 12, 2021 2021-07-12T20:52:00+07:00 4 min

Kafka In Depth

Trong quá trình làm bài tập lớn môn lưu trữ và xử lý dữ liệu lớn ở trường mình có biết đến kafka và sử dụng cho project của mình. Tuy nhiên lúc đó mình mới chỉ biết đơn giản nó là một message queue...

Jul 8, 2021 2021-07-08T20:52:00+07:00 9 min

Các câu lệnh thao tác với file và thư mục trên HDFS

Các câu lệnh trên HDFS nhìn chung khá là giống với các câu lệnh trên Linux kể cả về chức năng lẫn tên của chúng, nếu bạn nào đã quen với Linux/Ubuntu rồi thì chắc cũng không cần phải học gì nhiều đ...

Jul 6, 2021 2021-07-06T16:00:00+07:00 1 min

HDFS

Hadoop Distributed File System (HDFS) là hệ thống lưu trữ phân tán được thiết kế để chạy trên các phần cứng thông dụng. HDFS có khả năng chịu lỗi cao được triển khai sử dụng các phần cứng giá rẻ. H...

Jul 4, 2021 2021-07-04T16:00:00+07:00 6 min

Hadoop Ecosystem

Hệ sinh thái Apache Hadoop đề cập đến các thành phần khác nhau của thư viện phần mềm Apache Hadoop; nó bao gồm các dự án mã nguồn mở cũng như một loạt các công cụ bổ sung hoàn chỉnh khác. Một số cô...

Jul 2, 2021 2021-07-02T08:00:00+07:00 4 min

Cài đặt và triển khai Hadoop single node

Mỗi ngành công nghiệp lớn đang triển khai Apache Hadoop là khung tiêu chuẩn để xử lý và lưu trữ dữ liệu lớn. Hadoop được thiết kế để được triển khai trên một mạng lưới hàng trăm hoặc thậm chí hàng ...

Jul 1, 2021 2021-07-01T16:00:00+07:00 6 min

Giới thiệu tổng quan Hadoop

Hadoop là framework dựa trên 1 giải pháp tới từ Google để lưu trữ và xử lý dữ liệu lớn. Hadoop sử dụng giải thuật MapReduce xử lý song song các dữ liệu đầu vào. Tóm lại, Hadoop được sử dụng để phát...

Jun 29, 2021 2021-06-29T20:52:00+07:00 3 min

Mô hình lập trình MapReduce cho Bigdata

MapReduce là một kỹ thuật xử lý và là một mô hình lập trình cho tính toán phân tán để triển khai và xử lý dữ liệu lớn. MapReduce chứa 2 tác vụ quan trọng là map và reduce. WordCount là một ví dụ đi...

Jun 24, 2021 2021-06-24T08:00:00+07:00 4 min

Recent Update

Trending Tags