ดูเหมือนว่าวิทยาการ AI จะล้ำหน้าไปอีกขั้นในด้านของการเรียนรู้เสียงของมนุษย์ เพราะวันนี้ทีมวิจัยพัฒนาของ Microsoft ได้พัฒนา AI ตัวใหม่ที่มีชื่อว่า Vall-E ซึ่งไม่เพียงสามารถเลียนแบบได้เหมือนมนุษย์เท่านั้น แต่ยังสามารถเลียนแบบได้โดยใช้ตัวอย่างเสียงเพียงไม่กี่วินาทีเท่านั้น และไม่จำเป็นต้องมีคุณภาพสูงอีกด้วย!

โดย Vall-E นั้นเป็น AI ที่ถูกฝึกด้วยข้อมูลจำนวนมหาศาลและหลากหลายกว่าเทคโนโลยีสังเคราะห์เสียงอื่น ๆ ที่เคยมีมา ซึ่งเป็นข้อมูลเสียงพูดภาษาอังกฤษกว่า 60,000 ชั่วโมงจากผู้พูดต่าง ๆ กันถึง 7,000 คน มาป้อนให้ ทำให้มีความยืดหยุ่น ปรับตัวได้และเป็นธรรมชาติกว่าเทคโนโลยีรุ่นก่อน ๆ และ ไม่จำเป็นต้องใช้คลิปเสียงคนแบบคุณภาพสูงหลายวินาทีเพื่อเทรนอีกด้วย

โดยเราสามารถไปลองเสียงสังเคราะห์ของ AI Vall-E ได้บนหน้า Github ของทีมพัฒนา ซึ่งจะมีการอธิบายหลักการทำงานต่าง ๆ และตัวอย่างเสียง โดย Text คือข้อความที่จะให้ AI สังเคราะห์ออกมา Speaker Prompt คือตัวอย่างเสียงที่ป้อนเข้าไป และ Vall-E คือเสียงที่ได้ออกมา ซึ่งบางตัวอย่างจะมีแบบเน้นจังหวะจะโคนให้เหมือนคนจริงได้อีกด้วย

ทั้งนี้ทีมพัฒนา Vall-E ตระหนักดีว่าเทคโนโลยีนี้อาจมีผู้นำไปใช้ในทางที่ผิดได้เช่นเอาไปลอกเลียนแบบเสียงคนใดคนหนึ่ง และบอกว่ามีความเป็นได้ที่ในอนาคตจะมีการสร้างโมเดล AI ที่สามารถตรวจได้ว่าเสียงสังเคราะห์ด้วย Vall-E หรือเปล่า แต่ก็แอบน่าเป็นห่วงอยู่เหมือนกันว่าในอนาคตอาจมีการนำไปใช้สร้างข่าวปลอมได้
ที่มา: PC Gamer, Vall-E Github