Posts Cài đặt Zeppelin Notebook
Post
Cancel

Cài đặt Zeppelin Notebook

Chắc chúng ta quen nhiều hơn với Jupyter notebook và Zeppelin notebook có thể còn chưa được nghe tới bao giờ. Zeppelin notebook hay Apache Zeppelin là một ứng dụng dựa trên web cho phép phân tương tác trực tiếp với SQL, Scala, Python, R và hơn thế nữa.

Tải về Zeppelin

Trước hết bạn tải về file cài đặt của zeppelin tại: https://zeppelin.apache.org/, sau đó giải nén ra (lưu ý chọn bản full interpreter ở bên trên):

Cấu hình

Bây giờ chúng ta sẽ đi cấu hình một số thông số của zeppelin trong thư mục /conf. Các bạn sẽ thấy trong thư mục này có một số file có đuôi .template, đây là các file cấu hình mẫu, chúng ta cần cấu hình cho 2 file zeppelin-env.shzeppelin-site.xml (nếu bạn dùng windows thì bạn sẽ sử dụng file zeppelin-env.cmd thay cho file zeppelin-env.sh).

Tạo file zeppelin-env.sh và copy toàn bộ nội dung từ file zeppelin-env.sh.template:

1
cp zeppelin-env.sh.template zeppelin-env.sh

Cấu hình JAVA_HOME trong file zeppelin-env.sh như sau:

Để tìm được đường dẫn trên bạn làm như sau:

1
which java

output: /usr/bin/java

1
readlink -f /usr/bin/java

output: /usr/lib/jvm/java-11-openjdk-amd64/bin/java

Đường dẫn mà chúng ta cần lấy là: /usr/lib/jvm/java-11-openjdk-amd64 (bỏ đi /bin/java)

Tạo file zeppelin-site.xml và copy toàn bộ nội dung từ file zeppelin-site.xml.template. Zeppelin mặc định sẽ mở tại cổng 8080, tuy nhiên cổng này là cổng của Spark, vì thế chúng ta cần đổi cổng cho zeppelin để tránh xung đột, bạn có thể chọn một cổng bất kì, ở đây mình chuyển nó sang cổng 15000:

Cấu hình interpreter

Bật zeppelin lên thông qua câu lệnh:

1
bin/zeppelin-daemon.sh start

Truy cập vào zeppelin bằng trình duyệt của bạn với đường dẫn http://localhost:15000/ (nếu bạn không câu hình zeppelin với cổng 15000, hãy thay lại cổng của bạn cho hợp lý):

Để cấu hình interpreter, các bạn nhấn vào phần tài khoản ở góc phải của màn hình (anonymouse) sau đó chọn interpreter:

Chuyển tới phần spark và chỉnh sửa lại giá trị của spark.master:

Chúng ta có 5 chế độ chính:

  • local[*]: là chế độ local, chế độ này chúng ta có thể chạy mà không cần bật Spark
  • spark://master:7077: chuyển lại master thành tên master node của bạn, ví dụ như của mình là spark://PC0628:7077, đây là chế độ standalone cluster.
  • yarn-client là chế độ yarn-client
  • yarn-cluster là chế độ yarn-cluster
  • mesos://host:5050 là Mesos cluster

Kéo xuống bên dưới và cấu hình lại thuộc tính PYSPARK_DRIVER_PYTHON thành đường dẫn tới trình thông dịch python của bạn:

Bây giờ mở zeppelin lên và thực hành thôi:

Tham khảo: https://zeppelin.apache.org/

This post is licensed under CC BY 4.0 by the author.