Tại sự kiện công nghệ toàn cầu Computex 2026 diễn ra tại Đài Bắc (Đài Loan), trọng tâm thảo luận của ngành công nghiệp bán dẫn và máy tính dịch chuyển rõ rệt từ "AI đám mây" (Cloud AI) sang "AI tại biên" (Edge AI). Ngành phần cứng đang trải qua giai đoạn tái cấu trúc khi năng lượng tính toán cấp độ trung tâm dữ liệu được tích hợp vào các thiết bị cá nhân đặt trực tiếp tại không gian làm việc.
Bước chuyển từ AI phản hồi sang tác nhân tự chủ (Agentic AI)
Trong giai đoạn đầu của làn sóng trí tuệ nhân tạo, quy trình vận hành phổ biến là người dùng gửi dữ liệu yêu cầu lên các máy chủ đám mây của OpenAI, Google hay Microsoft và nhận phản hồi. Tuy nhiên, kiến trúc này bộc lộ nhiều hạn chế về độ trễ đường truyền, chi phí băng thông và tính bảo mật của dữ liệu nguồn.

Nvidia DGX Spark là dòng máy tính cá nhân chuyên biệt cho AI và sẽ được phân phối tại Việt Nam
Ảnh: Anh Quân
Sự phát triển của Agentic AI - thế hệ tác nhân phần mềm tự chủ có khả năng lập kế hoạch, suy luận và tương tác trực tiếp với hệ thống tệp tin cục bộ đang đặt ra yêu cầu mới về hạ tầng phần cứng. Thay vì phản hồi thụ động, các tác nhân này hoạt động như cấu trúc nhân sự kỹ thuật số, xử lý luồng thông tin liên tục trong thời gian thực. Để đảm bảo tính toàn vẹn và bảo mật dữ liệu, việc đưa mô hình AI về vận hành ngoại tuyến (offline) trên thiết bị của người dùng trở thành giải pháp kỹ thuật tất yếu.
Minh chứng tiêu biểu cho xu hướng này là dòng máy tính AI cá nhân DGX Spark được giới thiệu tại Computex 2026. Thiết bị sở hữu thiết kế dạng để bàn nhỏ gọn nhưng mang hiệu năng của một hệ thống siêu tính toán thu nhỏ nhờ chip đơn Nvidia GB10 Grace Blackwell Superchip.
Khả năng vận hành độc lập của thiết bị phụ thuộc vào hệ thống bộ nhớ thống nhất (Unified Memory) dung lượng 128 GB LPDDR5X với băng thông tốc độ cao. Trong kiến trúc AI, dung lượng và tốc độ bộ nhớ quyết định khả năng xử lý các mô hình ngôn ngữ lớn (LLM). Yếu tố này cho phép các kỹ sư dữ liệu vận hành trực tiếp các mô hình có quy mô lên tới 200 tỉ tham số ngay tại thiết bị cục bộ, thay vì triển khai trên cụm máy chủ đám mây.
Về thông số kỹ thuật, GPU kiến trúc Blackwell tích hợp lõi Tensor thế hệ thứ 5 (định dạng chính xác FP4) cung cấp sức mạnh tính toán 1 petaFLOP. Khối xử lý trung tâm CPU ARM 20 lõi chịu trách nhiệm điều phối dữ liệu giữa hệ thống tệp cục bộ và mô hình AI.

Dòng máy trạm phục vụ nhu cầu AI tại biên của doanh nghiệp giờ đây cũng có kích thước nhỏ gọn, dễ triển khai ở nhiều quy mô
Ảnh: Anh Quân
Tại các gian hàng triển lãm, giải pháp hạ tầng cho xu hướng này được phân hóa rõ rệt thông qua các hệ thống đồng bộ từ nhà sản xuất gốc và các đơn vị cung cấp giải pháp tích hợp phần cứng chuyên dụng. Điển hình như Leadtek, đơn vị trưng bày dải sản phẩm máy trạm và máy chủ thuộc hệ thống được chứng nhận bởi Nvidia (Nvidia-Certified Systems). Nhắm vào nhu cầu vận hành on-premises (nội bộ) của các doanh nghiệp vừa và nhỏ, dòng máy trạm AI WinFast WS950 hỗ trợ cấu hình đa GPU với hai card đồ họa chuyên nghiệp Nvidia RTX PRO 6000 Blackwell Workstation Edition, cung cấp bộ nhớ GPU GDDR7 tổng cộng lên đến 192 GB. Ở quy mô lớn hơn, hệ thống máy chủ WinFast GS5855T của đơn vị này cho phép tích hợp tối đa tám GPU RTX PRO kiến trúc Blackwell nhằm đáp ứng các bài toán suy luận và huấn luyện AI chuyên sâu.
Tối ưu hóa bảo mật và chi phí vận hành
Vận hành AI tại biên thông qua hệ thống phần cứng cục bộ giải quyết ba bài toán cốt lõi của hạ tầng công nghệ hiện nay. Đầu tiên là bảo mật dữ liệu. Toàn bộ thông tin doanh nghiệp, mã nguồn nội bộ và dữ liệu cá nhân được lưu trữ, xử lý trong môi trường Sandbox cách ly với internet, hạn chế nguy cơ rò rỉ dữ liệu qua bên thứ ba.
Loạt giải pháp Edge AI mới tại Computex 2026
Tiếp đó là vấn đề cố định chi phí tính toán. Việc thuê hạ tầng đám mây tính phí theo lượng token phát sinh chi phí biến đổi lớn khi mở rộng quy mô. Vận hành trên phần cứng offline chuyển đổi chi phí này thành khoản đầu tư tài sản cố định, tối ưu hóa vận hành dài hạn. Cuối cùng là khả năng mở rộng cục bộ: Thông qua các giao thức kết nối tốc độ cao, người dùng có thể liên kết các hệ thống máy tính biên để chia sẻ tài nguyên, nâng cấp năng lực xử lý mô hình biên lên quy mô khổng lồ.
Bình luận (0)