|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
26.02.2015, 18:24 | #1 |
Пользователь
Регистрация: 11.10.2013
Сообщений: 10
|
кластеризация
Ребят,кто-нибудь может объяснить как найти расстояния смешанных данных?
Я изучила метод к-средних для числовых данных,где расстояние Евклидово.Почитала про текстовые данные,есть похожий метод k-means. А как теперь для числовых и текстовых данных сделать метод общий? |
26.02.2015, 19:08 | #2 |
Белик Виталий :)
Старожил
Регистрация: 23.07.2007
Сообщений: 57,097
|
Впервые о таком слышу.
I'm learning to live...
|
26.02.2015, 19:34 | #3 |
C/C++, Asm
Участник клуба
Регистрация: 02.03.2010
Сообщений: 1,323
|
легко. написать к-meas так, чтобы он на вход кроме тестового множества перинимал еще и норму этого множества.
|
27.02.2015, 08:52 | #4 |
Пользователь
Регистрация: 11.10.2013
Сообщений: 10
|
Эээм...А помочь не сможете с этим??Ну или хотя б что куда добавить...Там в данном методе и расстояния формулы нет даже..
|
27.02.2015, 14:30 | #5 |
C/C++, Asm
Участник клуба
Регистрация: 02.03.2010
Сообщений: 1,323
|
что значит нет?
наверняка строится векторное пространсво с нормой. размерность пространсва выбирается равной размеру словаря. могу предположить, что один вектор описывает один текстовый документ, в самом простом случае компоненты ветора можно выбрать равными частотам вхождения слова в текст. норма строится согласно свойств нормы. и например может быть выбрана в виде text_norm1 = abs(vec). ну и k-means работает с величиной text_norm1(x_doc - median_doc) |
27.02.2015, 14:56 | #6 |
Пользователь
Регистрация: 11.10.2013
Сообщений: 10
|
Ну понятно что "наверняка" есть..просто я в этой теме новичок,я только только изучаю.И нет ли у вас может примеров этого всего?
|
27.02.2015, 15:03 | #7 |
C/C++, Asm
Участник клуба
Регистрация: 02.03.2010
Сообщений: 1,323
|
не, у меня готовых примеров по теме нет.
но это классическая алгебраическая задача, наверняка есть какой-нибудь опен-сорс по теме. |
27.02.2015, 15:05 | #8 |
Пользователь
Регистрация: 11.10.2013
Сообщений: 10
|
жалко..А вообще как вычислить расстояние в текстовых данных?между словами или как это делается?
|
27.02.2015, 15:18 | #9 |
C/C++, Asm
Участник клуба
Регистрация: 02.03.2010
Сообщений: 1,323
|
для слов, я бы предположил, что размерность пространства выбирается равной размеру алфавита. компоненты вектора выбираются, к примеру, равными наименьшему индексу буквы в слове. ну и норму выбрать в виде
word_norm(word_a, word_b) = (1<<max_word_length) - 1; for (unsigned int i(0);i<alphabet_size;i++) word_norm(word_a, word_b) ^= (word_a[i] == word_b[i])<<(max_word_length - word_a[i] - 1); Последний раз редактировалось f.hump; 27.02.2015 в 15:30. |
28.02.2015, 02:45 | #10 |
Особый статус
Участник клуба
Регистрация: 24.11.2008
Сообщений: 1,535
|
Расстояние Левенштейна: habrahabr.ru/post/114997/)/
Формула 1 (календарь чемпионата-2016): 26.11.2016 15:55 — Абу-Даби: http://ru.wikipedia.org/wiki/Гран-при_Абу-Даби — (квалификация)! Эфир: http://lion-tv.com/28-match-tv.html
|
Опции темы | Поиск в этой теме |
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Нечёткая кластеризация методом c-means | Smitt&Wesson | C++ Builder | 34 | 30.10.2015 06:20 |
Кластеризация картинки.. | goto ∞ | Помощь студентам | 7 | 15.04.2013 21:03 |
Кластеризация текстов(Java,Delphi) | Иванычи | Помощь студентам | 0 | 21.05.2012 17:32 |
Кластеризация | Nelli22 | Visual C++ | 0 | 23.11.2011 13:11 |