Broadcom
Broadcom là công ty dẫn đầu công nghệ toàn cầu cung cấp danh mục toàn diện các giải …
Broadcom là công ty dẫn đầu công nghệ toàn cầu cung cấp danh mục toàn diện các giải pháp phần mềm cơ sở hạ tầng và bán dẫn. Các sản phẩm của họ là nền tảng để xây dựng, mở rộng và bảo mật các trung tâm dữ liệu AI và đám mây AI riêng tư của doanh nghiệp tiên tiến nhất thế giới.
Về Bán dẫn
Bán dẫn AI là các chip silicon chuyên dụng được thiết kế để tăng tốc các tính toán trí tuệ nhân tạo và học máy. Là một thành phần cốt lõi của phần cứng AI, các bộ xử lý này được thiết kế với kiến trúc song song cao để xử lý hiệu quả các phép nhân ma trận và vector lớn vốn có trong mạng nơ-ron. Giá trị chính của chúng nằm ở việc cho phép huấn luyện mô hình nhanh hơn, suy luận có độ trễ thấp hơn và triển khai AI phức tạp trên các thiết bị từ trung tâm dữ liệu lớn đến các thiết bị biên bị hạn chế về năng lượng. Sự chuyên môn hóa này cho phép chúng vượt trội hơn các CPU đa dụng trong các tác vụ AI theo cấp số nhân.
Tính năng Cốt lõi
- Kiến trúc Song song: Có hàng nghìn lõi để thực hiện nhiều phép tính đồng thời, lý tưởng cho khối lượng công việc học sâu.
- Lõi Chuyên dụng: Bao gồm các đơn vị phần cứng chuyên dụng như Tensor Cores hoặc NPU để tăng tốc các hoạt động AI cụ thể.
- Bộ nhớ Băng thông Cao (HBM): Sử dụng bộ nhớ xếp chồng để truy cập dữ liệu cực nhanh, ngăn chặn tắc nghẽn xử lý.
- Hiệu quả Năng lượng: Được tối ưu hóa để cung cấp hiệu suất tối đa trên mỗi watt, rất quan trọng cho cả việc triển khai tại trung tâm dữ liệu và tại biên.
- Hỗ trợ Tính toán Độ chính xác Thấp: Xử lý nguyên bản các định dạng dữ liệu như FP16, BFLOAT16 và INT8 để tăng thông lượng với tác động tối thiểu đến độ chính xác.
Trường hợp Sử dụng
Bán dẫn AI là nền tảng trong nhiều lĩnh vực khác nhau. Trong các trung tâm dữ liệu, chúng được sử dụng để huấn luyện các mô hình ngôn ngữ lớn (LLM) và cung cấp năng lượng cho các dịch vụ AI dựa trên đám mây. Trong điện toán biên, chúng cho phép các ứng dụng thời gian thực như lái xe tự hành, giám sát thông minh và trợ lý giọng nói trên thiết bị. Chúng cũng ngày càng được tích hợp vào máy tính cá nhân và máy trạm để tăng tốc các tính năng do AI cung cấp trong phần mềm sáng tạo, trò chơi và các ứng dụng khoa học dữ liệu.
Cách Lựa chọn
Việc lựa chọn chất bán dẫn AI phù hợp phụ thuộc vào ứng dụng cụ thể. Để huấn luyện các mô hình lớn, hãy ưu tiên hiệu suất thô (đo bằng FLOPS hoặc TOPS) và bộ nhớ lớn, băng thông cao. Đối với suy luận, hãy tập trung vào độ trễ, hiệu quả năng lượng (hiệu suất trên mỗi watt) và yếu tố hình thức. Hệ sinh thái phần mềm, bao gồm hỗ trợ trình điều khiển, các thư viện như CUDA hoặc ROCm và khả năng tương thích với các framework, cũng là một yếu tố quan trọng cho việc phát triển và triển khai.
Bán dẫnTrường hợp sử dụng
Huấn luyện Mô hình Ngôn ngữ Lớn tại Trung tâm Dữ liệu
Các phòng thí nghiệm nghiên cứu AI và các công ty công nghệ lớn sử dụng các cụm bán dẫn AI hiệu suất cao, chẳng hạn như GPU hoặc ASIC tùy chỉnh, để huấn luyện các mô hình nền tảng như LLM. Quá trình này bao gồm việc cung cấp hàng petabyte dữ liệu vào một mạng nơ-ron trong nhiều tuần hoặc nhiều tháng. Sức mạnh xử lý song song của các con chip này là cần thiết để xử lý hàng nghìn tỷ phép tính cần thiết để điều chỉnh các tham số của mô hình, giúp việc tạo ra các mô hình mạnh mẽ như GPT-4 hoặc Llama trong một khung thời gian thực tế trở nên khả thi.
Suy luận Thời gian thực cho Xe tự hành
Các nhà sản xuất ô tô tích hợp các chất bán dẫn AI tiết kiệm năng lượng, thường ở dạng Hệ thống trên chip (SoC) với Bộ xử lý thần kinh (NPU) chuyên dụng, vào hệ thống điều khiển phương tiện của họ. Các con chip này xử lý dữ liệu từ nhiều cảm biến như máy ảnh, radar và LiDAR trong thời gian thực. Chúng chạy các mô hình nhận thức phức tạp để phát hiện người đi bộ, các phương tiện khác và biển báo đường bộ với độ trễ tối thiểu. Việc xử lý độ trễ thấp, ngay trên thiết bị này rất quan trọng để đưa ra các quyết định trong tích tắc cần thiết cho việc lái xe tự hành an toàn.
Tăng tốc AI Tạo sinh trên Máy tính Cá nhân
Người sáng tạo nội dung, nghệ sĩ và nhà phát triển sử dụng GPU cấp tiêu dùng với các lõi AI chuyên dụng (như Tensor Cores của NVIDIA) để chạy các mô hình AI tạo sinh cục bộ. Điều này cho phép họ tạo hình ảnh bằng Stable Diffusion, chỉnh sửa video với các tính năng do AI cung cấp hoặc lập trình với trợ lý AI cục bộ mà không cần dựa vào dịch vụ đám mây. Chất bán dẫn AI trong PC của họ giảm đáng kể thời gian xử lý, biến các tác vụ mất vài phút trên CPU thành vấn đề chỉ trong vài giây, từ đó nâng cao quy trình làm việc sáng tạo và năng suất.
Phân tích Hình ảnh Y tế bằng AI
Các bệnh viện và phòng thí nghiệm chẩn đoán sử dụng các máy trạm được trang bị thẻ tăng tốc AI mạnh mẽ để phân tích các hình ảnh y tế như X-quang, CT scan và MRI. Các bác sĩ X-quang chạy các mô hình AI trên phần cứng chuyên dụng này để tự động phát hiện các bất thường tiềm ẩn, chẳng hạn như khối u hoặc gãy xương, có thể dùng làm ý kiến thứ hai. Thông lượng cao của các chất bán dẫn này cho phép phân tích nhanh các hình ảnh lớn, có độ phân giải cao, giúp giảm thời gian chẩn đoán và cải thiện độ chính xác trong việc xác định các tình trạng nguy kịch.
Cung cấp Năng lượng cho Hệ thống Giám sát Thành phố Thông minh
Các đô thị triển khai các máy chủ biên được trang bị chip suy luận AI để xử lý các luồng video từ hàng nghìn camera công cộng. Thay vì truyền tất cả video thô đến một trung tâm dữ liệu trung tâm, các thiết bị biên này phân tích cảnh quay tại chỗ. Các chất bán dẫn AI chạy các mô hình để phân tích luồng giao thông thời gian thực, nhận dạng biển số xe hoặc phát hiện các sự cố an toàn công cộng. Cách tiếp cận phân tán này giúp giảm yêu cầu về băng thông, giảm chi phí điện toán đám mây và cải thiện thời gian phản hồi bằng cách cho phép cảnh báo và hành động ngay lập tức ở cấp địa phương.
API Xử lý Ngôn ngữ Tự nhiên có Độ trễ thấp
Các nhà cung cấp dịch vụ đám mây sử dụng các giá đỡ chứa các bộ tăng tốc suy luận AI chuyên dụng để cung cấp năng lượng cho các API Xử lý Ngôn ngữ Tự nhiên (NLP) của họ, phục vụ các ứng dụng như dịch thuật thời gian thực, phân tích tình cảm và chatbot. Khi một yêu cầu của người dùng đến API, nó sẽ được chuyển đến một trong những con chip chuyên dụng này. Kiến trúc của chất bán dẫn được tối ưu hóa để chạy các mô hình NLP một cách hiệu quả, cho phép nó xử lý yêu cầu và trả về phản hồi trong vài mili giây. Điều này đảm bảo trải nghiệm người dùng mượt mà và phản hồi nhanh cho hàng nghìn người dùng đồng thời.