Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > IT форум > Помощь студентам
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 26.02.2015, 18:24   #1
Настюн
Пользователь
 
Регистрация: 11.10.2013
Сообщений: 10
Восклицание кластеризация

Ребят,кто-нибудь может объяснить как найти расстояния смешанных данных?
Я изучила метод к-средних для числовых данных,где расстояние Евклидово.Почитала про текстовые данные,есть похожий метод k-means.
А как теперь для числовых и текстовых данных сделать метод общий?
Настюн вне форума Ответить с цитированием
Старый 26.02.2015, 19:08   #2
Stilet
Белик Виталий :)
Старожил
 
Аватар для Stilet
 
Регистрация: 23.07.2007
Сообщений: 57,097
По умолчанию

Впервые о таком слышу.
I'm learning to live...
Stilet вне форума Ответить с цитированием
Старый 26.02.2015, 19:34   #3
f.hump
C/C++, Asm
Участник клуба
 
Аватар для f.hump
 
Регистрация: 02.03.2010
Сообщений: 1,323
По умолчанию

легко. написать к-meas так, чтобы он на вход кроме тестового множества перинимал еще и норму этого множества.
f.hump вне форума Ответить с цитированием
Старый 27.02.2015, 08:52   #4
Настюн
Пользователь
 
Регистрация: 11.10.2013
Сообщений: 10
По умолчанию

Эээм...А помочь не сможете с этим??Ну или хотя б что куда добавить...Там в данном методе и расстояния формулы нет даже..
Настюн вне форума Ответить с цитированием
Старый 27.02.2015, 14:30   #5
f.hump
C/C++, Asm
Участник клуба
 
Аватар для f.hump
 
Регистрация: 02.03.2010
Сообщений: 1,323
По умолчанию

что значит нет?

наверняка строится векторное пространсво с нормой. размерность пространсва выбирается равной размеру словаря. могу предположить, что один вектор описывает один текстовый документ, в самом простом случае компоненты ветора можно выбрать равными частотам вхождения слова в текст. норма строится согласно свойств нормы. и например может быть выбрана в виде text_norm1 = abs(vec).

ну и k-means работает с величиной text_norm1(x_doc - median_doc)
f.hump вне форума Ответить с цитированием
Старый 27.02.2015, 14:56   #6
Настюн
Пользователь
 
Регистрация: 11.10.2013
Сообщений: 10
По умолчанию

Ну понятно что "наверняка" есть..просто я в этой теме новичок,я только только изучаю.И нет ли у вас может примеров этого всего?
Настюн вне форума Ответить с цитированием
Старый 27.02.2015, 15:03   #7
f.hump
C/C++, Asm
Участник клуба
 
Аватар для f.hump
 
Регистрация: 02.03.2010
Сообщений: 1,323
По умолчанию

не, у меня готовых примеров по теме нет.
но это классическая алгебраическая задача, наверняка есть какой-нибудь опен-сорс по теме.
f.hump вне форума Ответить с цитированием
Старый 27.02.2015, 15:05   #8
Настюн
Пользователь
 
Регистрация: 11.10.2013
Сообщений: 10
По умолчанию

жалко..А вообще как вычислить расстояние в текстовых данных?между словами или как это делается?
Настюн вне форума Ответить с цитированием
Старый 27.02.2015, 15:18   #9
f.hump
C/C++, Asm
Участник клуба
 
Аватар для f.hump
 
Регистрация: 02.03.2010
Сообщений: 1,323
По умолчанию

для слов, я бы предположил, что размерность пространства выбирается равной размеру алфавита. компоненты вектора выбираются, к примеру, равными наименьшему индексу буквы в слове. ну и норму выбрать в виде

word_norm(word_a, word_b) = (1<<max_word_length) - 1;
for (unsigned int i(0);i<alphabet_size;i++)
word_norm(word_a, word_b) ^= (word_a[i] == word_b[i])<<(max_word_length - word_a[i] - 1);

Последний раз редактировалось f.hump; 27.02.2015 в 15:30.
f.hump вне форума Ответить с цитированием
Старый 28.02.2015, 02:45   #10
Sasha_Smirnov
Особый статус
Участник клуба
 
Аватар для Sasha_Smirnov
 
Регистрация: 24.11.2008
Сообщений: 1,535
По умолчанию

Расстояние Левенштейна: habrahabr.ru/post/114997/)/
Sasha_Smirnov вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Нечёткая кластеризация методом c-means Smitt&Wesson C++ Builder 34 30.10.2015 06:20
Кластеризация картинки.. goto ∞ Помощь студентам 7 15.04.2013 21:03
Кластеризация текстов(Java,Delphi) Иванычи Помощь студентам 0 21.05.2012 17:32
Кластеризация Nelli22 Visual C++ 0 23.11.2011 13:11