Site logo

6 trụ cột Pillars của AWS Well-Architected Framework

5:00 read

1. Operational Excellence (Xuất Sắc Trong Vận Hành)

Bao gồm khả năng chạy và giám sát hệ thống để cung cấp giá trị kinh doanh và liên tục cải thiện các quy trình và thủ tục hỗ trợ

Trụ cột Operational Excellence bao gồm khả năng hỗ trợ phát triển và chạy workload một cách hiệu quả, có cái nhìn sâu sắc về hoạt động của chúng, và liên tục cải thiện các quy trình và thủ tục hỗ trợ để mang lại giá trị kinh doanh. Bạn có thể tìm thấy hướng dẫn chi tiết về triển khai trong tài liệu Operational Excellence Pillar.

Nguyên Tắc Thiết Kế

Có tám nguyên tắc thiết kế cho operational excellence trên cloud:

  • Organize teams around business outcomes (Tổ chức đội ngũ xung quanh kết quả kinh doanh): Leadership cần có tầm nhìn rõ ràng và mô hình vận hành cloud phù hợp để đội hoạt động hiệu quả, đáp ứng mục tiêu kinh doanh và có khả năng mở rộng (scale), tối ưu năng suất thông qua sự nhanh nhẹn và thích nghi.

  • Implement observability for actionable insights (Triển khai khả năng quan sát để có cái nhìn sâu sắc có thể hành động): Thiết lập các chỉ số hiệu suất chính (KPIs) và tận dụng observability telemetry để hiểu toàn diện về hành vi, hiệu suất, độ tin cậy, chi phí và tình trạng của workload. Giúp đưa ra quyết định sáng suốt và hành động kịp thời khi kết quả kinh doanh gặp rủi ro.

  • Safely automate where possible (Tự động hóa an toàn khi có thể): Định nghĩa toàn bộ workload và vận hành (ứng dụng, hạ tầng, cấu hình, quy trình) dưới dạng code. Triển khai tự động hóa với các rào cản bảo vệ (guardrails: giới hạn tốc độ, ngưỡng lỗi, phê duyệt) để đạt được phản hồi nhất quán, giảm lỗi con người và công việc thủ công của người vận hành.

  • Make frequent, small, reversible changes (Thực hiện các thay đổi nhỏ, thường xuyên và có thể hoàn tác): Thiết kế workload có khả năng mở rộng và kết nối lỏng lẻo (loosely coupled) để các thành phần được cập nhật thường xuyên. Triển khai tự động với các thay đổi tăng dần giúp giảm phạm vi ảnh hưởng (blast radius) và cho phép hoàn tác nhanh hơn khi có lỗi.

  • Refine operations procedures frequently (Cải tiến quy trình vận hành thường xuyên): Khi workload phát triển thì vận hành cũng phải phát triển theo. Thực hiện đánh giá định kỳ, xác thực các quy trình hiệu quả và đội ngũ quen thuộc với chúng. Cập nhật quy trình khi phát hiện khoảng trống và truyền đạt đến toàn bộ đội ngũ.

  • Anticipate failure (Dự đoán trước sự cố): Kiểm tra các kịch bản lỗi để hiểu hồ sơ rủi ro của workload và tác động đến kết quả kinh doanh. Xác thực hiệu quả của các quy trình và phản hồi của đội ngũ với các lỗi mô phỏng để đưa ra quyết định quản lý rủi ro tốt hơn.

  • Learn from all operational events and metrics (Học hỏi từ tất cả các sự kiện vận hành): Thúc đẩy cải tiến thông qua bài học rút ra từ mọi sự kiện vận hành và lỗi. Chia sẻ những gì học được giữa các đội và toàn tổ chức, làm nổi bật cách vận hành đóng góp vào kết quả kinh doanh.

  • Use managed services (Sử dụng managed services): Giảm gánh nặng vận hành bằng cách sử dụng AWS managed services. Xây dựng các quy trình vận hành xung quanh tương tác với những dịch vụ này.

Operational Excellence AWS Services

Có bốn best practice areas cho operational excellence:

  • Organization:

    • AWS Organizations: Quản lý và điều phối environments trên nhiều accounts
    • AWS Control Tower: Định nghĩa blueprints, áp dụng quản trị liên tục, tự động hóa cấp phát accounts
    • AWS Well-Architected Tool: Đánh giá cách tiếp cận và trạng thái workload, so sánh với best practices
    • AWS Trusted Advisor: Đề xuất tối ưu hóa cho bảo mật, độ tin cậy, hiệu suất, chi phí
    • AWS Managed Services: Nhà cung cấp managed services cho cloud environments
  • Prepare:

    • AWS CloudFormation: Định nghĩa workload (applications, infrastructure, operations) dưới dạng code, các môi trường theo template
    • AWS Config: Quản lý cấu hình và theo dõi tuân thủ (compliance)
    • AWS Resource Groups: Tổ chức và quản lý resources với chiến lược tagging
    • Resource Tags: Metadata cho tổ chức, hạch toán chi phí, kiểm soát truy cập
  • Operate:

    • Amazon CloudWatch: Thu thập metrics, dashboards, giám sát và cảnh báo
    • AWS X-Ray: Distributed tracing để phân tích và debug applications
    • AWS CloudTrail: Ghi log các API calls và actions cho audit và compliance
    • VPC Flow Logs: Giám sát network traffic và khắc phục sự cố
    • AWS Config: Theo dõi thay đổi cấu hình resources
  • Evolve:

    • Amazon S3: Lưu trữ log dài hạn và data lake
    • AWS Glue: Khám phá và chuẩn bị log data cho analytics
    • AWS Glue Data Catalog: Lưu trữ metadata cho analytics
    • Amazon Athena: Truy vấn log data bằng SQL
    • Amazon QuickSight: Trực quan hóa, khám phá và phân tích dữ liệu
    • AWS CodePipeline: Tích hợp liên tục (CI) và triển khai (CD)
    • AWS CodeBuild: Xây dựng và kiểm thử code
    • AWS CodeDeploy: Triển khai tự động
    • AWS CodeCommit: Kho lưu trữ source control

Best Practices

Đội ngũ operations cần hiểu rõ nhu cầu kinh doanh và khách hàng để có thể hỗ trợ các kết quả kinh doanh. Ops tạo và sử dụng các quy trình để phản hồi các sự kiện vận hành, và xác thực hiệu quả của chúng để hỗ trợ nhu cầu kinh doanh. Ops cũng thu thập các metrics được sử dụng để đo lường việc đạt được các kết quả kinh doanh mong muốn.

Mọi thứ liên tục thay đổi bối cảnh kinh doanh, ưu tiên kinh doanh và nhu cầu khách hàng của bạn. Điều quan trọng là thiết kế operations để hỗ trợ sự phát triển theo thời gian để đáp ứng với sự thay đổi, và kết hợp các bài học rút ra được thông qua hiệu suất của chúng.

2. Security (Bảo Mật)

Trụ cột Security bao gồm khả năng bảo vệ dữ liệu, hệ thống và tài sản để tận dụng các công nghệ cloud nhằm cải thiện bảo mật của bạn. Bạn có thể tìm thấy hướng dẫn chi tiết về triển khai trong tài liệu Security Pillar.

Nguyên Tắc Thiết Kế

Có bảy nguyên tắc thiết kế cho security trên cloud:

  • Implement a strong identity foundation (Triển khai nền tảng định danh mạnh mẽ): Thực hiện nguyên tắc least privilege (đặc quyền tối thiểu) và thực thi phân tách nhiệm vụ với ủy quyền phù hợp cho mỗi tương tác với AWS resources. Tập trung hóa quản lý định danh và loại bỏ sự phụ thuộc vào các credentials tĩnh dài hạn.

  • Maintain traceability (Duy trì khả năng truy vết): Giám sát, cảnh báo và audit các actions và thay đổi trong môi trường của bạn theo thời gian thực. Tích hợp thu thập log và metrics với các hệ thống để tự động điều tra và thực hiện hành động.

  • Apply security at all layers (Áp dụng bảo mật ở tất cả các lớp): Áp dụng cách tiếp cận phòng thủ theo chiều sâu (defense in depth) với nhiều biện pháp kiểm soát bảo mật. Áp dụng cho tất cả các lớp (ví dụ: edge of network, VPC, load balancing, mọi instance và compute service, operating system, application và code).

  • Automate security best practices (Tự động hóa các best practices bảo mật): Các cơ chế bảo mật dựa trên phần mềm tự động cải thiện khả năng mở rộng an toàn một cách nhanh chóng và hiệu quả về chi phí. Tạo các kiến trúc bảo mật, bao gồm triển khai các biện pháp kiểm soát được định nghĩa và quản lý dưới dạng code trong các templates có version control.

  • Protect data in transit and at rest (Bảo vệ dữ liệu khi truyền tải và khi lưu trữ): Phân loại dữ liệu của bạn thành các mức độ nhạy cảm và sử dụng các cơ chế như encryption, tokenization và access control khi thích hợp.

  • Keep people away from data (Giữ con người xa khỏi dữ liệu): Sử dụng các cơ chế và công cụ để giảm hoặc loại bỏ nhu cầu truy cập trực tiếp hoặc xử lý thủ công dữ liệu. Điều này giảm nguy cơ xử lý sai hoặc sửa đổi và lỗi con người khi xử lý dữ liệu nhạy cảm.

  • Prepare for security events (Chuẩn bị cho các sự kiện bảo mật): Chuẩn bị cho sự cố bằng cách có chính sách và quy trình quản lý và điều tra sự cố phù hợp với yêu cầu tổ chức của bạn. Chạy mô phỏng phản hồi sự cố và sử dụng công cụ với tự động hóa để tăng tốc độ phát hiện, điều tra và phục hồi.

Best Practices

Trước khi thiết kế bất kỳ workload nào, bạn cần đưa vào các thực hành ảnh hưởng đến security. Bạn sẽ muốn kiểm soát ai có thể làm gì. Ngoài ra, bạn muốn có khả năng xác định các sự cố bảo mật, bảo vệ hệ thống và dịch vụ của mình, và duy trì tính bảo mật và toàn vẹn của dữ liệu thông qua bảo vệ dữ liệu.

Bạn nên có một quy trình được xác định rõ ràng và được thực hành để phản hồi các sự cố bảo mật. Các công cụ và kỹ thuật này rất quan trọng vì chúng hỗ trợ các mục tiêu như ngăn chặn tổn thất tài chính hoặc tuân thủ các nghĩa vụ quy định.

AWS Shared Responsibility Model cho phép các tổ chức áp dụng cloud đạt được các mục tiêu bảo mật và tuân thủ của họ. Vì AWS bảo mật vật lý cơ sở hạ tầng hỗ trợ các dịch vụ cloud của chúng tôi, với tư cách là khách hàng AWS, bạn có thể tập trung vào việc sử dụng các dịch vụ để đạt được mục tiêu của mình. AWS Cloud cũng cung cấp quyền truy cập tốt hơn vào dữ liệu bảo mật và cách tiếp cận tự động để phản hồi các sự kiện bảo mật.

Yêu cầu đăng nhập

Vui lòng đăng nhập để truy cập nội dung này

Additional Resources

Course Guide

Comprehensive PDF guide with examples

GitHub Repository

Example code for all lessons

Discussion

Have a question about this lesson? Post it here and get answers from instructors and peers.