Máy phát giọng nói AI giống hệt con người: Tốt đến mức... nguy hiểm

Microsoft đã tạo ra mô hình trí tuệ nhân tạo (AI) hỗ trợ chuyển văn bản thành giọng nói AI có thể mô phỏng giọng nói con người tốt đến mức được đánh giá không an toàn để đưa ra thị trường.

Các công cụ sử dụng AI như ChatGPT ngày càng tinh vi và ấn tượng hơn, nhưng khi chúng trở nên quá tốt thì sẽ không thể phân biệt được đâu là con người và đâu là máy móc. Điều đó đã xảy ra hoặc ít nhất khi nói đến trình tạo giọng nói dựa trên AI của Microsoft.

Mới đây, phát hiện bởi LiveScience, Microsoft được cho là đã tạo ra trình AI có thể chuyển văn bản thành giọng nói mạnh đến mức công ty cho rằng không an toàn để công bố sản phẩm ra công chúng vì mô hình này có thể "tạo ra giọng nói chính xác, tự nhiên theo đúng giọng nói của người nói ban đầu". Rõ ràng việc công khai công cụ này có thể dẫn đến các hành vi gia tăng gian lận, mạo danh…

Mô hình AI nguy hiểm của Microsoft được gọi là VALL-E 2. Trong một bài báo, các nhà nghiên cứu giải thích mô hình này đánh dấu cột mốc trong quá trình tổng hợp văn bản thành giọng nói và đã đạt được sự tương đương với giọng nói người mà nó muốn sao chép. Các tiêu chuẩn nội bộ của Microsoft phát hiện VALL-E 2 có thể sao chép giọng nói con người, thậm chí vượt trội trong một số trường hợp.

Các nhà nghiên cứu của Microsoft cho biết: "Thí nghiệm của chúng tôi được tiến hành trên các tập dữ liệu LibriSpeech và VCTK, đã chỉ ra rằng VALL-E 2 vượt trội hơn các hệ thống TTS zero-shot trước đây về độ mạnh mẽ, tự nhiên và độ tương đồng của giọng nói. Đây là hệ thống đầu tiên đạt được sự tương đương với con người trên các tiêu chuẩn này".

Microsoft tuyên bố VALL-E 2 hoàn toàn là dự án nghiên cứu, có nghĩa công ty không có kế hoạch đưa VALL-E 2 vào sản phẩm hoặc mở rộng quyền truy cập của công chúng. Tuy nhiên, công ty đã phác thảo một số trường hợp sử dụng công nghệ này có thể là những người trong ngành như giáo dục, báo chí, nội dung tự biên soạn, tính năng trợ năng, hệ thống phản hồi bằng giọng nói, dịch thuật và chatbot.

Trước đó, Microsoft cho biết, đây là “mô hình ngôn ngữ codec thần kinh”. Đại học Cornell đã thử nghiệm VALL-E, theo báo cáo, cơ sở dữ liệu được sử dụng trong huấn luyện VALL-E do Meta (công ty mẹ của Facebook) tổng hợp nên, bao gồm 60.000 giờ thoại được thực hiện bởi 7.000 người. Kết quả cực kỳ ấn tượng, tuy nhiên đây vẫn chỉ là máy móc nên còn phải cải thiện nhiều trong tương lai.

Có rất nhiều ý kiến cho rằng VALL-E (AI giả giọng nói) sẽ bị lạm dụng, chẳng hạn như kẻ xấu dùng giọng giả các cơ quan chính phủ để trục lợi. Một số ngân hàng cũng đang định danh khách hàng của mình bằng giọng nói. Vậy nên nếu để VALL-E được tiếp cận dễ dàng thì nguy cơ tiềm ẩn sẽ xảy đến.

 


Tin mới