Luận Án Tiến Sĩ Nghiên Cứu Phát Triển Hệ Thống Thích Nghi Giọng Nói Trong Tổng Hợp Tiếng Việt Và Ứng Dụng

Discussion in 'Chuyên Ngành Hệ Thống Thông Tin' started by quanh.bv, Jun 24, 2024.

  1. quanh.bv

    quanh.bv Administrator Quản Trị Viên

    upload_2024-6-24_15-50-5.png
    1. Đề xuất mô hình Multi-pass fine-tune để tổng hợp thích nghi Few-shot TTS cho tiếng Việt chất lượng cao bằng kỹ thuật học chuyển đổi. Mô hình phụ thuộc người nói được đề xuất có khả năng nhân bản một giọng mới có qua huấn luyện nhằm giải quyết vấn đề cần ít dữ liệu của giọng nói nhân bản so với phương pháp truyền thống.
    2. Đề xuất kiến trúc vector EMV (Extracting-Mel vector) có khả năng trích xuất đặc trưng và biểu diễn người nói hiệu quả và mô hình thích nghi Few-shot TTS cho tiếng Việt giúp tăng cường chất lượng thích nghi. Mô hình phụ thuộc người nói được đề xuất có khả năng nhân bản một giọng mới cần ít dữ liệu hơn các kỹ thuật tinh chỉnh.
    3. Đề xuất mô hình Adapt-TTS để giải quyết bài toán nhân bản giọng nói không cần huấn luyện lại (Zero-shot TTS). Mô hình độc lập người nói được đề xuất giải quyết bài toán nhân bản một giọng mới với rất ít dữ liệu (vài giây mẫu) và không phải huấn luyện lại và có khả năng áp dụng trong thực tế.
    4. Xây dựng bộ CSDL tiếng nói đảm bảo chất lượng và chi phí thấp cho nhiệm vụ tổng hợp và thích nghi.
    Xây dựng được ứng dụng nhân bản giọng sử dụng được trên các thiết đa nền tảng nhằm bắt chước và tổng hợp giọng nói bất kỳ để chứng minh tính khả thi và hiệu năng của các mô hình đề xuất.
    • Luận án tiến sĩ tin học
    • Chuyên ngành Hệ thống thông tin
    • Người hướng dẫn: PGS.TS. Lương Chi Mai
    • Tác giả: Phạm Ngọc Phương
    • Số trang: 144
    • File PDF-TRUE
    • Ngôn ngữ: Tiếng Việt
    • Học viện Khoa học và Công nghệ 2023
    Link Download
    https://luanvan.moet.gov.vn/?page=1.3&view=43238
    https://drive.google.com/file/d/15a8tNW3TKbIL7GcHwmBuQ6l35EHBKVop
    https://drive.google.com/drive/folders/1yLBzZ1rSQoNjmWeJTM6cEZ3WGQHg04L1
     

Share This Page