menu
24hmoney
Install 24HMoneyTải App
copy link
Đào Trung Thành

Open source LLM là niềm hy vọng của doanh nghiệp muốn triển khai AI

Các ứng dụng Gen AI trong doanh nghiệp mới ở thời kỳ đầu nhưng tập trung ở việc khai thác Kho tri thức đặc thù của doanh nghiệp. Và người ta tiến hành một kỹ thuật gọi là RAG (Retrieval Augmented Generation). Như tôi vẫn thường nói, PoC (Proof of Concept) là việc dễ dàng, chỉ cần 1 buổi hay nhiều nhất 1 tuần là có được mộ ứng dụng RAG để trình diễn. Nhưng đến khi đưa vào hoạt động (in production) thì thật sự nhiều vấn đề. Và một trong các rào cảo lớn nhất: Giá cả.

Hiện nay, nếu dùng SOTA GPT-4 thì $20-30/triệu tokens. Xem token như đơn vị cơ bản, 1 từ tiếng Anh (trung bình 1 English Word ~ 1.33 Token) thì với 1 triệu token không hề lớn. Mỗi lần bạn hỏi đáp trong RAG có thể các ngữ cảnh (context) đưa từ Kho tri thức lên đến hàng ngàn tokens. Nghĩa là với 1 tháng, 1 user dùng 30 request một ngày là hết quota $30. Bạn phục vụ một doanh nghiệp chừng 100 con người thì cũng tốn chi phí tầm $2000-$3000,riêng phần trả phí API cho OpenAI. Đó là con số cần cân nhắc khi tính đến các quy mô 1000 người và 10.000 người ở doanh nghiệp lớn.

Và người ta sẽ dùng một LLM hiệu suất kém hơn một chút: GPT-3.5. Giá 1 triệu token cũng khoảng $2, giảm 10 lần so với dùng GPT-4. Người ta vẫn còn mong giảm chi phí hơn nữa. Dùng các Open Source như LLama. Tuy nhiên chỉ có loại Llama với tham số 70 tỷ mới có thể so sánh với GPT-3.5. Các loại tầm 7B,13B chỉ so sánh trong việc tạo văn bản, viết lách chứ chưa ngang tầm suy luận và toán. Bạn nên chú ý các chỉ số benchmarks như MMLU, GSM8K, MT Bench, chứ dừng bị các chiến dịch Marketing dụ dỗ về một 7B ngang tầm 175B.

Tuy nhiên, Mixtral 8x7B là một thực tế khác hẳn khi sử dụng cấu trúc Mixture of Expert, được đồn là chính GPT-4 cũng đang sử dụng (GPT-4 là một LLM nguồn đóng nên các mô hình, tham số, nguồn dữ liệu huấn luyện đều ko được công bố). Mixtral 8x7B đã có thể so sánh ngang với GPT-3.5 (xem hình)

Hôm nay, tôi loay hoay cả buổi để setup thử chạy runpod với 2 con A100, 80G cho bản Mixtral full precisons (không phải mấy bản quantization mà người ta báo rằng nhiều lỗi và không chính xác).

Sau đó thì được thông báo Anyscale cung cấp với giá rẻ hơn GPT-3.5 bốn lần (0.5 USD/ triệu tokens)!

Chất lượng tương đương, rẻ hơn 4 lần chưa kể ít bị gián đoạn ở cao điểm. Dạo này OpenAI bị quá tải khá nhiều và có khi sẽ lỗi khi gọi hàm API.

Rồi mình cũng setup được 1 giao diện hoàn toàn tương thích ChatGPT và chạy local và dùng Cloudflare cung cấp PoC cho nên ngoài qua domain dataaigpt.com mình sở hữu (xem hinh).

Open source LLM là niềm hy vọng của doanh nghiệp muốn triển khai AI
Open source LLM là niềm hy vọng của doanh nghiệp muốn triển khai AI
Open source LLM là niềm hy vọng của doanh nghiệp muốn triển khai AI
Theo dõi 24HMoney trên GoogleNews
Nhà đầu tư lưu ý
24HMoney đã kiểm duyệt

Từ khóa (bấm vào mỗi từ khóa để xem bài cùng chủ đề)

Bạn có muốn trở thành VIP/Pro trên 24HMoney? Hãy liên hệ với chúng tôi SĐT/ Zalo: 0981 935 283.

Để truyền thông cho doanh nghiệp, vui lòng liên hệ SĐT/ Zalo: 0908 822 699.

Hòm thư: phuongpt@24hmoney.vn
Đào Trung Thành

Bấm theo dõi để nhận thêm nội dung bổ ích từ chuyên gia này.

Tìm hiểu thêm về chuyên gia.

Hãy chọn VIP/PRO hàng đầu để nhận kho bài viết chuyên sâu

1 Yêu thích
1 Chia sẻ
Thích Đã thích Thích
Bình luận
Chia sẻ
Cơ quan chủ quản: Công ty TNHH 24HMoney. Địa chỉ: Tầng 5 - Toà nhà Geleximco - 36 Hoàng Cầu, P.Ô Chợ Dừa, Quận Đống Đa, Hà Nội. Giấy phép mạng xã hội số 203/GP-BTTTT do BỘ THÔNG TIN VÀ TRUYỀN THÔNG cấp ngày 09/06/2023 (thay thế cho Giấy phép mạng xã hội số 103/GP-BTTTT cấp ngày 25/3/2019). Chịu trách nhiệm nội dung: Phạm Đình Bằng. Email: support@24hmoney.vn. Hotline: 038.509.6665. Liên hệ: 0908.822.699

Điều khoản và chính sách sử dụng



copy link
Quét mã QR để tải app 24HMoney - App Tài chính, Chứng khoán nhiều người dùng nhất cho điện thoại