Лабораторная работа по матлаб
На аукционе
выбираем собственную предметную область (data set) из http://archive.ics.uci.edu/ml/datasets.html?format=&task=cla…. В ходе лабораторной работы следует с помощью Matlab разработать небольшую программу, которая будет оценивать качество нескольких алгоритмов классификации данных из выбранной предметной области для нескольких значений параметров классификаторов. Задача-минимум: реализовать метод k-NN (k nearest neighbor). Задача-максимум – дополнительно использовать существующие реализации классификаторов, такие как SVM (support vector machine), random forest, na?ve Bayes и т.п. (см. Statistics and Machine Learning Toolbox, http://www.mathworks.com/help/stats/classification.html). Тестирование осуществляется методом скользящего контроля (cross validation): data set разбивается на 2 части (обучающая и тестовая выборка). По обучающей выборке происходит обучение классификатора, тестовая выборка используется для оценки вероятности ошибки классификации. Разбиение на два множества происходит последовательно в пропорциях 10%, 20%, 30%, ..., 90%. Далее для каждого отношения объема обучающей выборке к объему всей базы данных в течение нескольких раз (20-100) наугад заполняется обучающая выборка, все остальные объекты помещаются в тестовую выборку (главное, чтобы все классы в обучающей и тестовой выборке были представлены равномерно). Результаты отражаются в небольшой презентации (с таблицами/диаграммами и краткими выводами - какой алгоритм лучше какие данные классифицирует).