Chắc chúng ta quen nhiều hơn với Jupyter notebook và Zeppelin notebook có thể còn chưa được nghe tới bao giờ. Zeppelin notebook hay Apache Zeppelin là một ứng dụng dựa trên web cho phép phân tương tác trực tiếp với SQL, Scala, Python, R và hơn thế nữa.
Tải về Zeppelin
Trước hết bạn tải về file cài đặt của zeppelin tại: https://zeppelin.apache.org/, sau đó giải nén ra (lưu ý chọn bản full interpreter ở bên trên):
Cấu hình
Bây giờ chúng ta sẽ đi cấu hình một số thông số của zeppelin trong thư mục /conf
. Các bạn sẽ thấy trong thư mục này có một số file có đuôi .template
, đây là các file cấu hình mẫu, chúng ta cần cấu hình cho 2 file zeppelin-env.sh
và zeppelin-site.xml
(nếu bạn dùng windows thì bạn sẽ sử dụng file zeppelin-env.cmd
thay cho file zeppelin-env.sh
).
Tạo file zeppelin-env.sh
và copy toàn bộ nội dung từ file zeppelin-env.sh.template
:
1
cp zeppelin-env.sh.template zeppelin-env.sh
Cấu hình JAVA_HOME trong file zeppelin-env.sh
như sau:
Để tìm được đường dẫn trên bạn làm như sau:
1
which java
output: /usr/bin/java
1
readlink -f /usr/bin/java
output: /usr/lib/jvm/java-11-openjdk-amd64/bin/java
Đường dẫn mà chúng ta cần lấy là: /usr/lib/jvm/java-11-openjdk-amd64
(bỏ đi /bin/java
)
Tạo file zeppelin-site.xml
và copy toàn bộ nội dung từ file zeppelin-site.xml.template
. Zeppelin mặc định sẽ mở tại cổng 8080
, tuy nhiên cổng này là cổng của Spark, vì thế chúng ta cần đổi cổng cho zeppelin để tránh xung đột, bạn có thể chọn một cổng bất kì, ở đây mình chuyển nó sang cổng 15000
:
Cấu hình interpreter
Bật zeppelin lên thông qua câu lệnh:
1
bin/zeppelin-daemon.sh start
Truy cập vào zeppelin bằng trình duyệt của bạn với đường dẫn http://localhost:15000/ (nếu bạn không câu hình zeppelin với cổng 15000
, hãy thay lại cổng của bạn cho hợp lý):
Để cấu hình interpreter, các bạn nhấn vào phần tài khoản ở góc phải của màn hình (anonymouse) sau đó chọn interpreter:
Chuyển tới phần spark
và chỉnh sửa lại giá trị của spark.master
:
Chúng ta có 5 chế độ chính:
local[*]
: là chế độ local, chế độ này chúng ta có thể chạy mà không cần bật Sparkspark://master:7077
: chuyển lạimaster
thành tên master node của bạn, ví dụ như của mình làspark://PC0628:7077
, đây là chế độ standalone cluster.yarn-client
là chế độ yarn-clientyarn-cluster
là chế độ yarn-clustermesos://host:5050
là Mesos cluster
Kéo xuống bên dưới và cấu hình lại thuộc tính PYSPARK_DRIVER_PYTHON
thành đường dẫn tới trình thông dịch python của bạn:
Bây giờ mở zeppelin lên và thực hành thôi:
Tham khảo: https://zeppelin.apache.org/