Luận Văn Thạc Sĩ Một Số Thuật Toán Phân Cụm Trong Khai Phá Dữ Liệu

Discussion in 'Chuyên Ngành Công Nghệ Thông Tin' started by nhandang123, Aug 8, 2016.

  1. nhandang123

    nhandang123 Guest

    [​IMG]
    Một Số Thuật Toán Phân Cụm Trong Khai Phá Dữ Liệu
    Bài toán phân cụm dữ liệu thuộc lĩnh vực học không giám sát, nhằm phân tập dữ liệu thành các tập con, thỏa mãn điều kiện các đối tượng trong cũng một tập con có độ tương đồng cao, và ngược lại các đối tượng ở các tập con khác nhau thì có độ tương đồng thấp. Hay nói cách khác, bài toán phân cụm dữ liệu là bài toán khám phá cấu trúc của tập dữ liệu. Tùy theo đặc điểm cấu trúc của tập dữ liệu và mục đích sử dụng, có các phương pháp giải quyết khác nhau như: Phân cụm dựa vào phân hoạch, phân cụm theo phân cấp, phân cụm dựa vào mật độ và phân cụm dựa vào lưới. Tư tưởng của phương pháp phân hoạch là tìm cách phân chia tập dữ liệu thành các tập không giao nhau, thỏa mãn điều kiện làm tối ưu hàm đánh giá. Trong mỗi tập con thường có ít nhất một phần tử đại diện, phần tử đại diện có thể là tâm của tập con đó. Mỗi đối tượng trong tập dữ liệu được phân vào cụm có điểm đại diện gần với đối tượng đó nhất. Quá trình này lặp đi lặp lại cho tới khi hàm mục tiêu không thay đổi. Có nhiều thuật toán áp dụng phương pháp này như: K-Means, K-Medoids, EM. Các phương pháp phân cụm theo phân hoạch có thể phân cụm dữ liệu với thời gian rất nhanh đối với các tập dữ liệu lớn tuy nhiên nó có thể phân cụm sai trong trường hợp hình dạng các cụm không phải là hình cầu, hoặc dữ liệu chứa nhiễu và yêu cầu phải xác định trước số lượng cụm.
    • Luận văn thạc sĩ
    • Chuyên ngành Công nghệ thông tin
    • Người hướng dẫn khoa học: PGS. TS. Hoàng Xuân Huấn
    • Tác giả: Bùi Ngọc Thăng
    • Số trang: 55
    • Kiểu file: PDF
    • Ngôn ngữ: Tiếng Việt
    • Đại học Quốc gia Hà Nội 2007
    Link Download
    http://dlib.vnu.edu.vn/iii/cpro/DigitalItemViewPage.external?lang=vie&sp=1007864
    https://drive.google.com/drive/folders/1yLBzZ1rSQoNjmWeJTM6cEZ3WGQHg04L1
     
    Last edited by a moderator: Sep 24, 2017

Share This Page