Tether ra mắt các mô hình AI y tế chạy trên điện thoại và vượt trội so với các hệ thống lớn hơn.

•

QVAC MedPsy là một dòng mô hình ngôn ngữ y tế được thiết kế để chạy trên điện thoại thông minh và các thiết bị biên, với định hướng triển khai ưu tiên quyền riêng tư. Theo thông tin công bố, các mô hình nhỏ của QVAC MedPsy cho thấy kết quả benchmark ban đầu nổi bật so với nhiều đối thủ có quy mô lớn hơn, phản ánh khả năng tái cấu trúc cách triển khai AI y tế theo hướng “tại chỗ”.

Thiết kế triển khai ưu tiên quyền riêng tư

Điểm nhấn của QVAC MedPsy là khả năng xử lý hiệu quả ngay trên thiết bị, giúp giữ dữ liệu y tế nhạy cảm tại chỗ. Cách tiếp cận này được nêu như một thay đổi so với mô hình AI y tế trước đây, vốn thường phụ thuộc nhiều vào hạ tầng đám mây để xử lý dữ liệu từ xa. Với các nhà cung cấp chăm sóc sức khỏe chịu ràng buộc bởi quy định quyền riêng tư nghiêm ngặt, mô hình được kỳ vọng mở ra thêm lựa chọn triển khai khi việc truy cập đám mây bị hạn chế.

Hai phiên bản mô hình và kết quả benchmark

QVAC MedPsy có hai phiên bản: mô hình 1,7 tỷ tham số và mô hình 4 tỷ tham số. Cả hai đều được thử nghiệm trên tám bộ benchmark y tế, bao gồm các nhóm đánh giá như kiến thức lâm sàng, lý luận chuyên gia và các tình huống thực tế.

Mô hình 1,7 tỷ tham số

Theo công bố, mô hình 1,7 tỷ tham số đạt 62.62 trên bảy bài kiểm tra đóng-đầu. Điểm số này vượt MedGemma-4B của Google hơn 11 điểm, dù kích thước chỉ bằng một phần hai. Ở HealthBench Hard, cùng mô hình cũng vượt MedGemma 27B, tương đương gần 16 lần kích thước.

Mô hình 4 tỷ tham số

Phiên bản 4 tỷ tham số đạt 70.54 trên cùng bảy bài kiểm tra. Công bố cho biết mô hình vượt MedGemma-27B-text và các mô hình khác có kích thước gần bảy lần. Hiệu suất được mô tả là vẫn vững chắc trên HealthBench, HealthBench Hard và MedXpertQA.

Hiệu quả token và thời gian phản hồi

CEO của Tether, Paolo Ardoino, trực tiếp đề cập đến hiệu quả của mô hình. Ông cho biết mô hình 4 tỷ tham số vượt xa kết quả của các mô hình gần bằng bảy lần kích thước, đồng thời sử dụng tối đa ba lần ít token cho mỗi phản hồi.

Cụ thể, mô hình 4 tỷ tham số tạo phản hồi chỉ khoảng 909 token. Trong khi đó, các hệ thống tương tự được nêu sử dụng khoảng 2.953 token cho mỗi phản hồi, tương ứng mức giảm 3,2 lần về độ dài đầu ra. Với mô hình 1,7 tỷ tham số, mức trung bình khoảng 1.110 token cho mỗi phản hồi, so với khoảng 1.901 token đối với các hệ thống tương tự.

Đầu ra ngắn hơn được nêu là có thể giúp thời gian phản hồi nhanh hơn và chi phí tính toán thấp hơn, qua đó có ý nghĩa trong bối cảnh chăm sóc sức khỏe thực tế, nơi tốc độ và chi phí cùng ảnh hưởng đến mức độ chấp nhận.

Định dạng triển khai tại chỗ

Cả hai mô hình đều có sẵn ở định dạng GGUF đã được lượng hóa để triển khai tại chỗ. Phiên bản Q4_K_M có kích thước khoảng 1,2 GB (đối với mô hình 1,7 tỷ tham số) và 2,6 GB (đối với mô hình 4 tỷ tham số). Các kích thước này được mô tả là phù hợp cho thiết bị di động và hệ thống bệnh viện triển khai tại chỗ.

Động lực hiệu suất từ huấn luyện sau giai đoạn

Hiệu suất được cho là đến từ quá trình huấn luyện sau giai đoạn, kết hợp giám sát y tế rộng rãi, dữ liệu suy luận lâm sàng và học tăng cường trên các trường hợp khó hơn. Theo công bố, không cần mở rộng mô hình thêm để đạt được các kết quả benchmark nêu trên.