Home
De Manejar
Cancel

Kafka In Depth

Trong quá trình làm bài tập lớn môn lưu trữ và xử lý dữ liệu lớn ở trường mình có biết đến kafka và sử dụng cho project của mình. Tuy nhiên lúc đó mình mới chỉ biết đơn giản nó là một message queue...

Các câu lệnh thao tác với file và thư mục trên HDFS

Các câu lệnh trên HDFS nhìn chung khá là giống với các câu lệnh trên Linux kể cả về chức năng lẫn tên của chúng, nếu bạn nào đã quen với Linux/Ubuntu rồi thì chắc cũng không cần phải học gì nhiều đ...

HDFS

Hadoop Distributed File System (HDFS) là hệ thống lưu trữ phân tán được thiết kế để chạy trên các phần cứng thông dụng. HDFS có khả năng chịu lỗi cao được triển khai sử dụng các phần cứng giá rẻ. H...

Hadoop Ecosystem

Hệ sinh thái Apache Hadoop đề cập đến các thành phần khác nhau của thư viện phần mềm Apache Hadoop; nó bao gồm các dự án mã nguồn mở cũng như một loạt các công cụ bổ sung hoàn chỉnh khác. Một số cô...

Cài đặt và triển khai Hadoop single node

Mỗi ngành công nghiệp lớn đang triển khai Apache Hadoop là khung tiêu chuẩn để xử lý và lưu trữ dữ liệu lớn. Hadoop được thiết kế để được triển khai trên một mạng lưới hàng trăm hoặc thậm chí hàng ...

Giới thiệu tổng quan Hadoop

Hadoop là framework dựa trên 1 giải pháp tới từ Google để lưu trữ và xử lý dữ liệu lớn. Hadoop sử dụng giải thuật MapReduce xử lý song song các dữ liệu đầu vào. Tóm lại, Hadoop được sử dụng để phát...

Mô hình lập trình MapReduce cho Bigdata

MapReduce là một kỹ thuật xử lý và là một mô hình lập trình cho tính toán phân tán để triển khai và xử lý dữ liệu lớn. MapReduce chứa 2 tác vụ quan trọng là map và reduce. WordCount là một ví dụ đi...

Redis 101 (Part I)

Tổng quan Trong thời gian học môn Lưu trữ và xử lý dữ liệu lớn ở trường, mình có được nghe qua về redis. Đây là một cơ sở dữ liệu dạng NoSQL. Khác với các cơ sở dữ liệu khác thì đây là một dạng lưu...