Open source LLM là niềm hy vọng của doanh nghiệp muốn triển khai AI
Các ứng dụng Gen AI trong doanh nghiệp mới ở thời kỳ đầu nhưng tập trung ở việc khai thác Kho tri thức đặc thù của doanh nghiệp. Và người ta tiến hành một kỹ thuật gọi là RAG (Retrieval Augmented Generation). Như tôi vẫn thường nói, PoC (Proof of Concept) là việc dễ dàng, chỉ cần 1 buổi hay nhiều nhất 1 tuần là có được mộ ứng dụng RAG để trình diễn. Nhưng đến khi đưa vào hoạt động (in production) thì thật sự nhiều vấn đề. Và một trong các rào cảo lớn nhất: Giá cả.
Hiện nay, nếu dùng SOTA GPT-4 thì $20-30/triệu tokens. Xem token như đơn vị cơ bản, 1 từ tiếng Anh (trung bình 1 English Word ~ 1.33 Token) thì với 1 triệu token không hề lớn. Mỗi lần bạn hỏi đáp trong RAG có thể các ngữ cảnh (context) đưa từ Kho tri thức lên đến hàng ngàn tokens. Nghĩa là với 1 tháng, 1 user dùng 30 request một ngày là hết quota $30. Bạn phục vụ một doanh nghiệp chừng 100 con người thì cũng tốn chi phí tầm $2000-$3000,riêng phần trả phí API cho OpenAI. Đó là con số cần cân nhắc khi tính đến các quy mô 1000 người và 10.000 người ở doanh nghiệp lớn.
Và người ta sẽ dùng một LLM hiệu suất kém hơn một chút: GPT-3.5. Giá 1 triệu token cũng khoảng $2, giảm 10 lần so với dùng GPT-4. Người ta vẫn còn mong giảm chi phí hơn nữa. Dùng các Open Source như LLama. Tuy nhiên chỉ có loại Llama với tham số 70 tỷ mới có thể so sánh với GPT-3.5. Các loại tầm 7B,13B chỉ so sánh trong việc tạo văn bản, viết lách chứ chưa ngang tầm suy luận và toán. Bạn nên chú ý các chỉ số benchmarks như MMLU, GSM8K, MT Bench, chứ dừng bị các chiến dịch Marketing dụ dỗ về một 7B ngang tầm 175B.
Tuy nhiên, Mixtral 8x7B là một thực tế khác hẳn khi sử dụng cấu trúc Mixture of Expert, được đồn là chính GPT-4 cũng đang sử dụng (GPT-4 là một LLM nguồn đóng nên các mô hình, tham số, nguồn dữ liệu huấn luyện đều ko được công bố). Mixtral 8x7B đã có thể so sánh ngang với GPT-3.5 (xem hình)
Hôm nay, tôi loay hoay cả buổi để setup thử chạy runpod với 2 con A100, 80G cho bản Mixtral full precisons (không phải mấy bản quantization mà người ta báo rằng nhiều lỗi và không chính xác).
Sau đó thì được thông báo Anyscale cung cấp với giá rẻ hơn GPT-3.5 bốn lần (0.5 USD/ triệu tokens)!
Chất lượng tương đương, rẻ hơn 4 lần chưa kể ít bị gián đoạn ở cao điểm. Dạo này OpenAI bị quá tải khá nhiều và có khi sẽ lỗi khi gọi hàm API.
Rồi mình cũng setup được 1 giao diện hoàn toàn tương thích ChatGPT và chạy local và dùng Cloudflare cung cấp PoC cho nên ngoài qua domain dataaigpt.com mình sở hữu (xem hinh).
Theo dõi người đăng bài
Tiếp cận các chuyên gia VIP/PRO hàng đầu của 24HMONEY
Nhận ngay bài viết tài chính chuyên sâu
Bạn muốn trở thành VIP/PRO trên 24HMONEY?
Liên hệ 24HMONEY ngay
Bình luận