Lưu trữ, không phải silicon, sẽ kích hoạt bước đột phá tiếp theo của AI

Cuộc tranh luận về sức mạnh xử lý đồ họa đã là tin cũ. Những ai thành công trong tương lai sẽ là những người nắm vững nơi dữ liệu cư trú. Khi việc tạo ra dữ liệu toàn cầu tiếp tục bùng nổ, những công ty chậm chạp sẽ bị khóa ra khỏi giai đoạn đổi mới tiếp theo.

Tóm tắt

  • Khối lượng dữ liệu đang bùng nổ, với dự báo việc tạo ra toàn cầu sẽ vượt quá 200 zettabyte vào cuối năm 2025, nhiều hơn tổng sản lượng của nhân loại trước đây.
  • Lưu trữ đám mây tập trung là nút thắt AI, làm tăng chi phí lên tới 80% với phí xuất dữ liệu và làm chậm quá trình chuyển dữ liệu quy mô lớn đến vài ngày.
  • Mạng lưu trữ phi tập trung cung cấp một giải pháp, phân mảnh dữ liệu qua các nút độc lập và nhúng các chứng cứ mã hóa cho các dấu vết kiểm toán sẵn sàng tuân thủ.
  • Quy định như Đạo luật AI của EU làm tăng thêm mức độ quan trọng, buộc phải có nguồn gốc dữ liệu có thể chứng minh—biến việc lưu trữ thành một ưu tiên chiến lược, không chỉ là một tiện ích nền tảng.

Việc tạo dữ liệu được dự đoán sẽ đạt đỉnh 200 zettabyte trên toàn cầu vào cuối năm 2025; điều này đủ để phát trực tuyến mọi bộ phim từng được sản xuất hơn 100 tỷ lần. Sự ước tính này liên quan đến nhiều dữ liệu số hơn những gì nhân loại đã tạo ra trong mọi năm trước đó cộng lại.

Song song với sự bùng nổ này, các nhóm nghiên cứu đã công bố mô hình ngôn ngữ một nghìn tỷ tham số đầu tiên được phát hành công khai. Mô hình khổng lồ này, với tập dữ liệu huấn luyện của nó đã đủ để lấp đầy toàn bộ các kho lưu trữ quốc gia cách đây mười năm, là một ví dụ về một Leviathan như vậy mà tiêu tốn petabyte mỗi giờ.

Nếu không có các đường ống lưu trữ có thể tiếp nhận, giai đoạn và phát trực tuyến dữ liệu ở những quy mô mới này, ngay cả các bộ xử lý nhanh nhất cũng sẽ chịu đựng sự thất vọng khi không hoạt động.

Các đám mây tập trung là nút thắt mới

Hầu hết các tổ chức vẫn phụ thuộc vào một vài kho lưu trữ quy mô lớn được thiết kế cho các ứng dụng web, chứ không phải cho khoa học tiên phong. Gánh nặng tài chính là rất tàn khốc.

Một cuộc kiểm toán ngành được công bố vào tháng Tư đã tiết lộ rằng các khoản phí egress và retrieval ẩn có thể làm tăng chi phí lưu trữ thực sự lên tới 80%, khiến việc tái huấn luyện mô hình định kỳ trở thành một nỗ lực phá vỡ ngân sách. Tệ hơn nữa, việc di chuyển hàng chục petabyte giữa các khu vực có thể mất vài ngày; một khoảng thời gian vô tận khi lợi thế cạnh tranh được đo bằng chu kỳ lặp lại.

Vì vậy, sự tập trung không chỉ làm phình to hóa đơn; nó còn nhúng sự bất bình đẳng trực tiếp vào nền kinh tế trí tuệ nhân tạo, mang lại lợi thế tự động cho những người đã có sẵn nguồn lực lớn hơn so với những người khác. Để phản ứng với thực tế này, một kế hoạch khác đang ngày càng được ủng hộ khi các mạng lưới lưu trữ phi tập trung phân chia dữ liệu qua hàng nghìn nút độc lập mở đường cho một tương lai được xây dựng trên nền tảng bình đẳng.

Cũng quan trọng không kém là nhu cầu về các dấu vết kiểm toán minh bạch đáp ứng các quy định tiết lộ sắp tới về cách mà dữ liệu giao dịch được lấy nguồn, biên soạn và quản lý. Cuối cùng, quy định sẽ là yếu tố quyết định xem các mô hình của ngày mai có được công nhận hay phải đối mặt với kiện tụng.

Kiểm tra sức chịu đựng mới của Storage

AI thời gian thực hiện nay đã mở rộng vượt ra ngoài bức tường trung tâm dữ liệu, đưa các mô hình vào các nhà máy, bệnh viện và xe tự hành. Tại những rìa này, một mili giây bị mất do I/O chậm có thể gây ra lỗi sản xuất hoặc rủi ro an toàn.

Các chuẩn mực MLPerf Storage v2.0 mới nhất chứng minh sức ép: việc lưu trữ một khối lượng công việc loại GPT trên 10.000 bộ tăng tốc giờ đây mất 37 giây, và ngay cả một siêu cụm 100.000-GPU vẫn phải dừng lại 4,4 giây trong khi chờ đợi trên ổ đĩa thay vì thực hiện các phép toán.

Trừ khi các pipeline có thể truyền tải petabyte trong những đợt bùng nổ và sau đó sao chép cùng một dữ liệu đến hàng ngàn micro-site, ‘edge-AI’ sẽ vẫn chỉ là một khái niệm hơn là thực tế. Các nhà phân tích đã vang vọng cảnh báo rằng băng thông lưu trữ, không phải bộ nhớ hay mạng, sẽ là nút cổ chai số một kìm hãm các cụm thế hệ tiếp theo.

Quy định thêm một lớp khẩn cấp nữa, chẳng hạn như Đạo luật AI của Liên minh Châu Âu, đã bắt đầu giai đoạn thực thi thứ hai vào ngày 2 tháng 8 — buộc các nhà cung cấp mô hình đa năng phải ghi lại mọi phần dữ liệu đào tạo… hoặc đối mặt với khoản phạt lên đến 7% doanh thu toàn cầu.

Các silo tập trung gặp khó khăn trong việc đáp ứng yêu cầu này. Những bản sao trùng lặp làm mờ nguồn gốc, và các nhật ký ra vào mờ mịt khiến việc kiểm toán trở thành một cơn ác mộng cho các kế toán. Ngược lại, các mạng phi tập trung nhúng các bằng chứng mật mã của việc sao chép vào chính cấu trúc của chúng, biến việc tuân thủ thành một sản phẩm phụ thay vì một khoản chi phí đắt đỏ.

Bỏ qua lưu trữ với giá phải trả nguy hiểm

Với độ trễ biên được đo bằng micro giây và hình phạt pháp lý được đo bằng hàng tỷ, lưu trữ không còn là một tiện ích nền tảng; nó là nền tảng duy nhất mà trí tuệ nhân tạo của ngày mai có thể chạy một cách hợp pháp và vật lý. Các công ty vẫn coi khả năng lưu trữ như một mục hàng hóa đang mời gọi nợ kỹ thuật và cú sốc quy định ở mức độ tương tự.

Đổi mới tính toán sẽ tiếp tục chiếm lĩnh tiêu đề, nhưng nếu không có một sự suy nghĩ lại mang tính cách mạng tương đương về nơi ( và cách ) dữ liệu tồn tại, thì silicon tiên tiến nhất sẽ ngồi im khi chi phí và rủi ro tuân thủ leo thang.

Cuộc đua giành ưu thế trong lĩnh vực AI đang diễn ra, và những ai nâng tầm lưu trữ thành ưu tiên chiến lược hàng đầu, chấp nhận phi tập trung và xây dựng các quy trình sẵn sàng kiểm toán có thể mở rộng từ lõi đến biên sẽ là những người chiến thắng. Tất cả những người khác sẽ phát hiện ra rằng không có sức mạnh GPU nào có thể vượt qua một điểm nghẽn được xây dựng trong chính nền tảng của họ.

Kai Wawrzinek

Kai Wawrzinek

Kai Wawrzinek là một trong những người sáng lập của Impossible Cloud & Impossible Cloud Network. Ông là một doanh nhân dày dạn kinh nghiệm với bằng tiến sĩ Luật và có thành tích đã được chứng minh trong việc xây dựng các doanh nghiệp thành công. Nhận thấy nhu cầu về các giải pháp cấp doanh nghiệp trong lĩnh vực web3, Kai đã thành lập Impossible Cloud Network (ICN), một nền tảng đám mây phi tập trung nhằm tạo ra một sự thay thế phi tập trung cho AWS. Trước ICN, Kai đã sáng lập Goodgame Studios, một công ty trò chơi trực tuyến, và đã phát triển công ty lên hơn 1.000 nhân viên và tạo ra hơn 1 tỷ € doanh thu, đưa công ty ra công chúng trên Nasdaq vào năm 2018 thông qua một cuộc sáp nhập ngược.

NOT-5.47%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)