Vấn đề kỹ thuật từ sự cố gián đoạn Dịch vụ NOTAM của nước Mỹ

Tin tức từ nước Mỹ

Sự cố dừng toàn bộ Hệ thống NOTAM của nước Mỹ xảy ra ngày 11/1/2023 đã được một số báo trong và ngoài nước đưa tin. Trên Web-site của Cục Hàng không liên bang Mỹ - FAA (Federal Aviation Administration) cũng đã công bố thông tin này vào ngày 19/01/2023. Tuy nhiên trên các bản tin đó chưa nêu rõ được các hành động cụ thể và bài học cần rút ra khi thực hiện nhiệm vụ trên Hệ thống NOTAM. Trong bài viết này tôi xin tổng hợp lại thông tin được đại diện của FAA đưa ra ở Tài liệu thông tin số 06 (AAITF/18-IP/06) tại Hội nghị Nhóm chuyên trách thực hiện Quản lý tin tức hàng không lần thứ 18 được ICAO khu vực Châu Á - Thái Bình Dương tổ chức tại Băng Cốc - Thái Lan cũng như các tin bài trên báo chí trong nước và quốc tế trong thời gian qua. Qua đó chúng ta có thể học tập thêm những kinh nghiệm trong việc thực hiện nhiệm vụ trên Hệ thống NOTAM cũng như Bộ cơ sở dữ liệu (CSDL) NOTAM.

Về cơ bản FAA có 02 hệ thống cung cấp NOTAM. Hệ thống NOTAM cũ được sử dụng khoảng 30 năm trên nền tảng các phần mềm cũ. Hệ thống NOTAM mới đóng vai trò cung cấp dữ liệu NOTAM theo kiểu mới đáp ứng nhu cầu hiện đại hóa trong toàn ngành hàng không. Người dùng có thể truy cập đến cả 2 hệ thống này. Người dùng cũng có thể sao chép tất cả Bộ CSDL NOTAM này về tạo thành Bộ CSDL nội bộ và sử dụng khi cần thiết, nhưng FAA luôn khuyến cáo người dùng sử dụng bộ CSDL chính tắc do FAA cung cấp. (Trong sự cố ngày 11/01/2023 hãng Delta Airlines đã quyết định không sử dụng bộ dữ liệu nội bộ).

Vào cuối ngày 10/01/2023 các chuyên gia đã nhận thấy Hệ thống NOTAM có vấn đề, bộ CSDL NOTAM không còn đáng tin cậy. Việc điều phối công việc liên quan đến NOTAM vẫn được tiến hành nhưng độ tin cậy của bộ CSDL NOTAM ngày càng giảm. Sớm ngày 11/01/2023 nhà quản trị FAA đã quyết định ưu tiên tính an toàn của việc điều hành không lưu và cho dừng toàn bộ các chuyến bay thương mại đơn thuần chưa khởi hành vào lúc 07:15AM ngày 11/01/2023. Đến 09:07AM ngày 11/01/2023 việc khôi phục Bộ CSDL NOTAM đã hoàn tất và có độ tin cậy cao. Lệnh dừng cất cánh đối với các chuyến bay thương mại đơn thuần trên toàn nước Mỹ đã được gỡ bỏ ngay sau đó.

Thống kê cho thấy, đã có hơn 30.000 chuyến bay bị Hủy (Cancel) hoặc Chậm (Delay) vì sự cố này. Nếu tính toán thiệt hại về kinh tế cho sự cố thì nó sẽ là con số rất lớn, có thể lên đến hàng triệu Đô-la Mỹ.

Ngay sau khi sự cố được khắc phục, FAA đã mở cuộc điều tra và có một vài kết luận được công bố chính thức như sau:

  • Sự cố phải dừng Hệ thống NOTAM là do nhân viên kỹ thuật đã vô tình xóa nhầm tập tin (file) khi thực hiện quá trình đồng bộ Bộ CSDL đang sử dụng và Bộ CSDL sao lưu.
  • FAA không tìm thấy bằng chứng nào về mục đích xấu hoặc có cuộc tấn công mạng vào Hệ thống NOTAM này.

Sự việc vô tình này không có thêm thông tin về việc Tại sao (Why), Khi nào (When) và Ở đâu (Where) mà người nhân viên đó được phép can thiệp vào Hệ thống NOTAM và Bộ CSDL NOTAM. Tìm hiểu thêm nhiều thông tin bổ sung khác tôi thấy một ý như sau: Sự cố xảy ra trong quá trình bảo dưỡng định kỳ (incident happened during routine scheduled maintenance) Hệ thống NOTAM. Với thông tin này ta thấy các câu hỏi về Why/When/Where đều được giải đáp, lỗi hoàn toàn có yếu tố chủ quan của con người (human factor).

Do vậy, qua sự cố này FAA đã có một khuyến cáo và bài học kinh nghiệm là: “Cần nhiều hơn một (01) nhân viên có mặt cùng tham gia làm và giám sát công việc khi thực hiện trên Hệ thống NOTAM cũng như Bộ CSDL NOTAM”.

nh_11

Nhân viên kỹ thuật AIS/AIM thực hiện bảo dưỡng tủ máy chủ AIS tại Phòng CNS thuộc ATCC/HAN

Chuẩn bị các kịch bản ứng phó cho tình huống gián đoạn dịch vụ NOTAM

Trong kỷ nguyên công nghệ thông tin (CNTT) với kết nối đa điểm cung cấp dịch vụ dạng Internet toàn cầu, với những khái niệm như Cluster-serverRAID (Redundant Array of Independent Disks), hot-swapdual-LAN, .v.v. thì cứ ngỡ việc gián đoạn của một dịch vụ CNTT khó có thể xảy ra. Tuy nhiên, việc này dù có xác suất nhỏ nhưng thống kê cho thấy nó vẫn xuất hiện.

Để chuẩn bị cho tình huống xấu này, nhiều giải pháp đã được đề cập đến. Vậy chúng ta phải làm gì khi Hệ thống NOTAM và Bộ CSDL NOTAM bị lỗi khiến việc phân phối, phát hành tin tức không thể thực hiện được. Tài liệu làm việc số 09 (AAITF/18-WP/09) tại Hội nghị của Nhật Bản cho ta thấy một góc nhìn khá cụ thể về các hành động cần thiết khi sự cố xảy ra. Trong đó có đề cập đến yếu tố rất quan trọng đó là: Cần cố gắng phát hiện, nhận diện được sự cố dẫn đến gián đoạn dịch vụ càng sớm càng tốt (Hệ thống bị lỗi, Bộ CSDL bị suy giảm độ tin cậy, tính toàn vẹn dữ liệu bị phá vỡ .v.v.), để từ đó đưa ra phương án, tham mưu ngay cho cấp lãnh đạo trực tiếp để tìm các giải pháp thay thế. Sau đó là công tác thông báo tin tức đến người sử dụng về sự cố gián đoạn dịch vụ và/hoặc xác nhận tính Toàn vẹn (Integrity) trên Bộ CSDL hiện tại đang suy giảm.

Để chuẩn bị cho công việc này, Nhật Bản đã đề xuất các hành động cần thực hiện gồm 2 bước như sau:

Bước 1: Chuẩn bị cho tình huống gián đoạn dịch vụ gồm:

  • Lập danh sách các địa chỉ (AFTN/AMHS, phone/fax, email .v.v.) của các phòng NOF có liên quan;
  • Có Web-site nhằm thông báo thông tin tới người dùng;
  • Thêm địa chỉ liên lạc với tổ chức chuyên ngành tại khu vực hoặc thông báo địa chỉ liên lạc trong tài liệu (chuyên ngành) của ICAO.

Bước 2: Các việc nên làm khi nhận diện được việc gián đoạn dịch vụ:

  • Nếu vẫn còn có thể thì thông báo ngay đến người dùng trong danh sách các địa chỉ đã chuẩn bị ở Bước 1 bằng tất cả các phương thức có thể sử dụng được (AFTN/AMHS, phone/fax, email .v.v.) thông tin về sự cố;
  • Đăng lên Web-site thông tin về sự cố;
  • Liên tục cập nhật thông tin về sự cố (lên Web-site và/hoặc gửi đến người dùng).

Tạm có vài điều chia sẻ

- Có nhiều Hệ thống (dự phòng nóng) cung cấp dịch vụ nhưng tính Sẵn sàng (Availability) của dịch vụ CNTT vẫn có thể bị gián đoạn;

- Khi làm việc với Hệ thống NOTAM và/hoặc Bộ CSDL NOTAM cần đảm bảo rằng có ít nhất 02 nhân viên cùng thực hiện và/hoặc giám sát. Các bước thực hiện cần có xác thực từ nhân viên làm cùng và/hoặc giám sát. Nếu có thể thì trước khi thực hiện nhiệm vụ cần xác định tập lệnh và/hoặc những việc sẽ làm (dạng quy trình theo từng bước). Hơn nữa, nếu có thể thì thực hiện dạng chẵn/lẻ đối với từng lệnh/bước của quy trình với người-thứ-nhất-(lẻ)/người-thứ-hai-(chẵn) (mỗi người làm một lệnh/bước theo thứ tự của lệnh/bước của quy trình). Người giám sát phải đảm bảo rằng các kết quả của từng lệnh/bước phải có kết quả tốt trước khi chuyển sang lệnh/bước tiếp theo;

- Bảo dưỡng định kỳ (scheduled maintenance) là cần thiết, tuy nhiên cần cân nhắc kỹ và chuẩn bị tốt cho công tác này, đặc biệt là với các Hệ thống CNTT có thời dài sử dụng đã lâu. Khi bảo dưỡng định kỳ cần có quy trình, tài liệu được phê duyệt và đảm bảo rằng nhân viên có chuyên môn tốt thực hiện công việc. Đồng thời tại thời điểm bảo dưỡng định kỳ luôn có sẵn đội ngũ chuyên gia hỗ trợ khi cần thiết. Trong khi bảo dưỡng, nếu cảm nhận thấy có bất kỳ điều kiện, trạng thái, dấu hiệu bất thường của Hệ thống và/hoặc Bộ CSDL bị suy giảm độ tin cậy (unreliable) cần tạm dừng và tham khảo thêm các nguồn từ cấp chuyên viên, chuyên gia có kinh nghiệm hơn.

nh_21

Nhân viên kỹ thuật AIS/AIM thực hiện bảo dưỡng định kỳ các hệ thống, trang thiết bị
của Trung tâm tại Đà Nẵng và Tân Sơn Nhất

https://www.faa.gov/newsroom/faa-notam-statement

 

Nguồn: vatm.vn