Luận Văn Thạc Sĩ Kiểm Tra Lỗi Tự Động Từ Dữ Liệu Được Gán Nhãn Trong Tiếng Việt

Discussion in 'Chuyên Ngành Hệ Thống Thông Tin' started by nhandang123, Aug 15, 2016.

  1. nhandang123

    nhandang123 Guest

    [​IMG]
    Kiểm Tra Lỗi Tự Động Từ Dữ Liệu Được Gán Nhãn Trong Tiếng Việt
    Phân tích cú pháp là nhiệm vụ quan trọng trong việc xử lý ngôn ngữ tự nhiên. Trong đó, việc gán nhãn từ loại là trọng tâm hơn cả. Kho dữ liệu tiếng Anh được gán nhãn thành công là kho dữ liệu Peen Treebank. Kho dữ liệu này đã được gán nhãn nhờ sử dụng ba lược đồ chú thích cơ bản: Gán nhãn từ loại, Gán nhãn cú pháp, Gán nhãn gián đoạn. Tuy đã sử dụng nhiều hình thức gán nhãn để đảm bảo độ chính xác cao, nhưng vẫn không thể tránh việc xảy ra lỗi. Đối với văn bản tiếng Việt, ngày nay cũng đã có nhiều đề tài nghiên cứu phục vụ cho việc gán nhãn tiếng Việt. Đề tài phân tích cú pháp tiếng Việt được nhiều người biết đến là Đề tài VLSP của nhóm tác giả Hồ Tú Bảo, Nguyễn Phương Thái và các đồng nghiệp. Do việc gán nhãn có thể thực hiện tự động hoặc bằng tay, nên vấn đề hiện nay các nhà nghiên cứu gặp phải trong phân tích cú pháp đó là lỗi gán nhãn. Những lỗi này có thể là lỗi do nhận dạng từ vựng sai, lỗi do cú pháp. Kho dữ liệu cần nghiên cứu là rất lớn nên việc phát hiện lỗi bằng phương pháp thủ công là rất khó khăn.
    • Luận văn thạc sĩ Công nghệ thông tin
    • Chuyên ngành Hệ thống thông tin
    • Người hướng dẫn khoa học: TS. Nguyễn Phương Thái
    • Tác giả: Đặng Hồng Hạnh
    • Số trang: 49
    • Kiểu file: PDF
    • Ngôn ngữ: Tiếng Việt
    • Đại học Quốc gia Hà Nội 2014
    Link Download
    http://dlib.vnu.edu.vn/iii/cpro/DigitalItemViewPage.external?lang=vie&sp=1056923
    https://drive.google.com/drive/folders/1yLBzZ1rSQoNjmWeJTM6cEZ3WGQHg04L1
     
    Last edited by a moderator: Sep 10, 2017

Share This Page