Tổng Hợp Các Dịch Vụ AWS Analytics
5:00 read
Giới Thiệu
Trong kỷ nguyên dữ liệu lớn, việc thu thập, xử lý và phân tích dữ liệu hiệu quả là chìa khóa thành công của doanh nghiệp. AWS cung cấp một danh mục dịch vụ Analytics cực kỳ phong phú, phủ quy trình từ Data Ingestion (Thu thập), Storage (Lưu trữ), Processing (Xử lý) đến Visualization (Trực quan hóa).
Việc chọn đúng dịch vụ phụ thuộc vào:
- Khối lượng dữ liệu (Volume)
- Tốc độ yêu cầu (Real-time hay Batch)
- Kỹ năng của đội ngũ (SQL, Spark, Python...)
- Ngân sách tối ưu
1. Nhóm Truy Vấn & Kho Dữ Liệu (Warehouse & Query)
Các dịch vụ này giúp bạn chạy các truy vấn SQL trực tiếp trên dữ liệu thô hoặc dữ liệu đã được cấu trúc hóa.
1.1 Amazon Athena
- Khái niệm: Dịch vụ truy vấn không máy chủ (serverless) cho phép phân tích dữ liệu trực tiếp trên Amazon S3 bằng chuẩn SQL.
- Dùng khi: Cần chạy các truy vấn ad-hoc nhanh chóng trên S3 mà không muốn thiết lập server.
- Ưu điểm: Không cần hạ tầng, chỉ trả tiền cho lượng dữ liệu được quét, hỗ trợ nhiều định dạng (CSV, JSON, Parquet, Avro).
- Hạn chế: Không phù hợp cho các truy vấn cực kỳ phức tạp hoặc yêu cầu hiệu năng cao như Data Warehouse chuyên dụng.
1.2 Amazon Redshift
- Khái niệm: Data Warehouse nhanh, phổ biến và được quản lý hoàn toàn.
- Dùng khi: Cần lưu trữ và phân tích lượng lớn dữ liệu có cấu trúc (Petabyte scale) với hiệu năng cực cao.
- Ưu điểm: Kiến trúc Columnar storage, song song hóa (MPP), tích hợp sâu với S3 thông qua Redshift Spectrum.
- Hạn chế: Chi phí quản lý node (nếu không dùng Serverless), cần thiết kế schema kỹ lưỡng.
Yêu cầu đăng nhập
Vui lòng đăng nhập để truy cập nội dung này
Additional Resources
Course Guide
Comprehensive PDF guide with examples
GitHub Repository
Example code for all lessons
Discussion
Have a question about this lesson? Post it here and get answers from instructors and peers.
