Mùa đông năm ngoái, những chuyên gia toán học sử dụng công nghệ và dữ liệu để lập mô hình thị trường tại quỹ phòng hộ định lượng Two Sigma đã gặp phải một vấn đề. Để chạy các mô hình AI mới nhất của mình, họ cần một phần cơ sở hạ tầng quan trọng: GPU hoặc bộ xử lý đồ họa được săn đón nhiều của Nvidia. Nhưng việc chạm tay vào chip AI của Nvidia là điều gần như không thể.
“Tất cả chúng ta đều phải đối mặt với sự thiếu hụt công suất trên toàn ngành. Điều này đúng trên nhiều mẫu máy, nhưng nó đặc biệt nghiêm trọng với những mẫu mới nhất như A100 và H100 của Nvidia,” cho biết. Alex Hays, một kỹ sư của Two Sigma, trong khi phát biểu tại hội nghị lớn thường niên của Google Cloud ở Las Vegas vào tháng 4 này. Biểu đồ cho thấy tỷ lệ nhận được chip A100 thành công của Two Sigma nhiều nhất là 20%.
Hays Các nhóm công nghệ nội bộ cung cấp quyền truy cập vào các loại tài nguyên này “thực sự đang bị ràng buộc, khi bạn đang cố gắng đáp ứng nhu cầu của người dùng với chi phí hợp lý hoặc đôi khi là ở mức chi phí hợp lý và bạn đang thực hiện điều đó trong một môi trường rất hạn chế”. , người chịu trách nhiệm xây dựng và duy trì nền tảng nghiên cứu của Two Sigma, cho biết thêm.
Quỹ định lượng phụ thuộc vào các mô hình toán học và dựa trên máy tính để cung cấp thông tin cho các khoản đầu tư của mình và nhu cầu về sức mạnh tính toán có thể rất lớn, đặc biệt là với các mô hình tiên tiến hơn. Và đây không phải là lần đầu tiên các nhóm nghiên cứu của Two Sigma gặp phải tình trạng khan hiếm máy tính. Vào năm 2014, sức mạnh tính toán cần thiết cho quy trình công việc của họ lớn hơn 10 lần so với những gì trung tâm dữ liệu có thể cung cấp, cuối cùng đã thúc đẩy công ty chuyển sang đám mây công cộng.
Câu hỏi hóc búa về cung và cầu đã thúc đẩy Two Sigma và các nhà cung cấp công nghệ của nó phải sáng tạo. Google Cloud, một trong những nhà cung cấp đám mây của quỹ, đã phát triển các công nghệ mới thu hút toàn bộ khán giả tại Google Cloud Next. Là “một trong những khách hàng đầu tiên sử dụng những công nghệ mới này”, Hays của Two Sigma cho biết giải pháp này đã nâng tỷ lệ có được chip A100 của công ty lên khoảng 80%.
Bên trong Trình lập lịch khối lượng công việc động của Google Cloud
Daxter Mateo, một kỹ sư của Google Cloud làm việc với các khách hàng của quỹ phòng hộ, thường nghe thấy yêu cầu tương tự từ các kỹ sư Phố Wall.
“Nó đại loại như thế này: 'Dax, chúng tôi có một ý tưởng tuyệt vời là chúng tôi cần 200 chiếc H100 để chạy trong vài ngày và chúng tôi cần chúng càng sớm càng tốt và chúng tôi không thể bắt đầu công việc của mình cho đến khi có đủ tất cả, '” Mateo nói tại hội nghị, đề cập đến chip của Nvidia.
Về điều đó, anh ấy thường nói rằng rất khó để có được 200 thẻ ngay lập tức. Họ có thể sẽ phải mua GPU khi chúng có sẵn và cuối cùng tăng công suất lên 200, việc này có thể mất vài ngày hoặc vài tuần.
Trong thời gian đó, “những máy đó không được sử dụng đúng mức và đó không phải là cách tuyệt vời để tối ưu hóa chi tiêu trên đám mây của bạn vì bạn để chúng ngồi chờ tất cả các máy đến”, Mateo nói.
Vì Nvidia cung cấp chip của mình cho khách hàng thông qua các nhà cung cấp đám mây nên Google đã tìm ra cách để tập hợp dung lượng và phân phối quyền truy cập theo cách hiệu quả hơn. Mateo cho biết, giải pháp có tên Dynamic Workload Scheduler cho phép khách hàng tăng cơ hội đảm bảo các tài nguyên GPU khan hiếm này.
Khi khách hàng Google Cloud yêu cầu GPU thông qua DWS, nền tảng này yêu cầu khách hàng chỉ định khu vực, loại máy và số lượng máy cũng như thời lượng thời gian chạy. Mateo cho biết, việc biết số lượng tài nguyên mà một khách hàng nhất định cần cho phép Google Cloud cung cấp dung lượng chi tiết hơn, điều này “mở khóa dung lượng bổ sung”. Ông nói thêm rằng bộ lập lịch cũng cung cấp công suất cùng một lúc, giảm nhu cầu thanh toán cho các tài nguyên nhàn rỗi khi khách hàng xây dựng tất cả các máy đó. Trong ví dụ khi khách hàng cần 200 chip, DWS sẽ cung cấp tất cả 200 máy cùng một lúc, thay vì mua GPU để tăng công suất đó.
Một số công nghệ nội bộ của Two Sigma cũng đóng một vai trò quan trọng trong việc cải thiện tỷ lệ thành công khi mua được những con chip quý giá này. Theo Hays, công ty đã tích hợp công nghệ của Google Cloud với công cụ lập lịch nội bộ của mình, Cook, được xây dựng vào năm 2015 và là cách các nhà nghiên cứu có thể chạy các mô hình của họ. Hays cho biết, các nhà nghiên cứu gửi khối lượng công việc của họ cho Cook, sau đó sẽ xếp hàng, xếp hạng, ưu tiên và cuối cùng đưa ra khối lượng công việc.
Là nhà cung cấp đám mây cho nhiều công ty tài chính, Google Cloud được hưởng lợi từ việc giúp khách hàng của mình chạy các mô hình này vì nhiều nền tảng nghiên cứu được lưu trữ trên đám mây công cộng của Google. Ngoài Two Sigma, Citadel Securities còn có nền tảng nghiên cứu trên Google Cloud. Xu hướng ngày càng tăng của các công ty đám mây công cộng chính là tư vấn cho khách hàng về những thách thức bên ngoài công nghệ.
Nguồn: Business Insider.