Luận Án Tiến Sĩ Nghiên Cứu Việc Xây Dựng, Chuẩn Hóa Và Khai Thác Kho Ngữ Liệu Từ Nguồn Internet Cho Xử Lý Tiếng Việt

Discussion in 'Chuyên Ngành Mạng Máy Tính' started by quanh.bv, Jun 14, 2016.

  1. quanh.bv

    quanh.bv Guest

    [​IMG]
    Nghiên Cứu Việc Xây Dựng, Chuẩn Hóa Và Khai Thác Kho Ngữ Liệu Từ Nguồn Internet Cho Xử Lý Tiếng Việt
    1. Phát triển thuật toán thu thập văn bản tiếng Việt từ web để xây dựng kho ngữ liệu. Xây dựng công cụ thu thập tự động kho ngữ liệu từ Internet có tên là Vncopus, triển khai thu thập kho ngữ liệu thô tiếng Việt từ Internet (100 triệu từ).
    2. Xây dựng, triển khai các mô hình chuẩn hóa quốc tế về quản lý tài nguyên ngôn ngữ được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 cho tiếng Việt: Xây dựng mô hình chú giải mức hình thái-cú pháp (MAF Morphosyntactic Annotation Framework) và mô hình chú giải mức cú pháp (SynAF-Syntactic Annotation Framework) cho kho ngữ liệu tiếng Việt.
    3. Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ ngữ pháp) cho hệ thống nghiên cứu từ vựng. Tích hợp kho ngữ liệu xây dựng từ Internet (kho ngữ liệu thô được tách từ và gán nhãn từ loại bằng cách sử dụng công cụ sẵn có) cùng bộ quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng Việt vào hệ thống nghiên cứu từ vựng Sketch Engine. Kết quả thử nghiệm cho thấy bộ quan hệ ngữ pháp và kho ngữ liệu tiếng Việt thu thập từ Internet có độ phù hợp 100% trên hệ thống Sketch Engine.
    • Luận án tiến sĩ Công nghệ thông tin,
    • Chuyên ngành Truyền dữ liệu và mạng máy tính
    • Người hướng dẫn khoa học: PGS. TS. Trần Hồng Quân, TS. Nguyễn Thị Minh Huyền
    • Tác giả: Phan Thị Hà
    • 151Trang
    • Kiểu file: PDF
    • Ngôn ngữ: Tiếng Việt
    • Học viện Công nghệ Bưu chính Viễn thông 2014
    Link Download
    http://luanvan.moet.edu.vn/?page=1.3&view=9257
    https://drive.google.com/drive/folders/1yLBzZ1rSQoNjmWeJTM6cEZ3WGQHg04L1
     
    Last edited by a moderator: Sep 26, 2017

Share This Page