кластеризация - Помощь студентам

Настюн · 26.02.2015, 18:24

Ребят,кто-нибудь может объяснить как найти расстояния смешанных данных?
Я изучила метод к-средних для числовых данных,где расстояние Евклидово.Почитала про текстовые данные,есть похожий метод k-means.
А как теперь для числовых и текстовых данных сделать метод общий?

Stilet · 26.02.2015, 19:08

Впервые о таком слышу.

f.hump · 26.02.2015, 19:34

легко. написать к-meas так, чтобы он на вход кроме тестового множества перинимал еще и норму этого множества.

Настюн · 27.02.2015, 08:52

Эээм...А помочь не сможете с этим??Ну или хотя б что куда добавить...Там в данном методе и расстояния формулы нет даже..

f.hump · 27.02.2015, 14:30

что значит нет?

наверняка строится векторное пространсво с нормой. размерность пространсва выбирается равной размеру словаря. могу предположить, что один вектор описывает один текстовый документ, в самом простом случае компоненты ветора можно выбрать равными частотам вхождения слова в текст. норма строится согласно свойств нормы. и например может быть выбрана в виде text_norm1 = abs(vec).

ну и k-means работает с величиной text_norm1(x_doc - median_doc)

Настюн · 27.02.2015, 14:56

Ну понятно что "наверняка" есть..просто я в этой теме новичок,я только только изучаю.И нет ли у вас может примеров этого всего?

f.hump · 27.02.2015, 15:03

не, у меня готовых примеров по теме нет.
но это классическая алгебраическая задача, наверняка есть какой-нибудь опен-сорс по теме.

Настюн · 27.02.2015, 15:05

жалко..А вообще как вычислить расстояние в текстовых данных?между словами или как это делается?

f.hump · 27.02.2015, 15:18

для слов, я бы предположил, что размерность пространства выбирается равной размеру алфавита. компоненты вектора выбираются, к примеру, равными наименьшему индексу буквы в слове. ну и норму выбрать в виде

word_norm(word_a, word_b) = (1<<max_word_length) - 1;
for (unsigned int i(0);i<alphabet_size;i++)
word_norm(word_a, word_b) ^= (word_a[i] == word_b[i])<<(max_word_length - word_a[i] - 1);

Sasha_Smirnov · 28.02.2015, 02:45

Расстояние Левенштейна: habrahabr.ru/post/114997/)/

26.02.2015, 18:24	#1
Настюн Пользователь Регистрация: 11.10.2013 Сообщений: 10	кластеризация Ребят,кто-нибудь может объяснить как найти расстояния смешанных данных? Я изучила метод к-средних для числовых данных,где расстояние Евклидово.Почитала про текстовые данные,есть похожий метод k-means. А как теперь для числовых и текстовых данных сделать метод общий?

26.02.2015, 19:08	#2
Stilet Белик Виталий :) Старожил Регистрация: 23.07.2007 Сообщений: 57,097	Впервые о таком слышу. I'm learning to live...

26.02.2015, 19:34	#3
f.hump C/C++, Asm Участник клуба Регистрация: 02.03.2010 Сообщений: 1,323	легко. написать к-meas так, чтобы он на вход кроме тестового множества перинимал еще и норму этого множества. http://safe-fail.net

27.02.2015, 14:30	#5
f.hump C/C++, Asm Участник клуба Регистрация: 02.03.2010 Сообщений: 1,323	что значит нет? наверняка строится векторное пространсво с нормой. размерность пространсва выбирается равной размеру словаря. могу предположить, что один вектор описывает один текстовый документ, в самом простом случае компоненты ветора можно выбрать равными частотам вхождения слова в текст. норма строится согласно свойств нормы. и например может быть выбрана в виде text_norm1 = abs(vec). ну и k-means работает с величиной text_norm1(x_doc - median_doc) http://safe-fail.net

27.02.2015, 15:03	#7
f.hump C/C++, Asm Участник клуба Регистрация: 02.03.2010 Сообщений: 1,323	не, у меня готовых примеров по теме нет. но это классическая алгебраическая задача, наверняка есть какой-нибудь опен-сорс по теме. http://safe-fail.net

27.02.2015, 08:52	#4
Настюн Пользователь Регистрация: 11.10.2013 Сообщений: 10	Эээм...А помочь не сможете с этим??Ну или хотя б что куда добавить...Там в данном методе и расстояния формулы нет даже..

27.02.2015, 14:56	#6
Настюн Пользователь Регистрация: 11.10.2013 Сообщений: 10	Ну понятно что "наверняка" есть..просто я в этой теме новичок,я только только изучаю.И нет ли у вас может примеров этого всего?

27.02.2015, 15:05	#8
Настюн Пользователь Регистрация: 11.10.2013 Сообщений: 10	жалко..А вообще как вычислить расстояние в текстовых данных?между словами или как это делается?

27.02.2015, 15:18	#9
f.hump C/C++, Asm Участник клуба Регистрация: 02.03.2010 Сообщений: 1,323	для слов, я бы предположил, что размерность пространства выбирается равной размеру алфавита. компоненты вектора выбираются, к примеру, равными наименьшему индексу буквы в слове. ну и норму выбрать в виде word_norm(word_a, word_b) = (1<<max_word_length) - 1; for (unsigned int i(0);i<alphabet_size;i++) word_norm(word_a, word_b) ^= (word_a[i] == word_b[i])<<(max_word_length - word_a[i] - 1); http://safe-fail.net Последний раз редактировалось f.hump; 27.02.2015 в 15:30.

28.02.2015, 02:45	#10
Sasha_Smirnov Особый статус Участник клуба Регистрация: 24.11.2008 Сообщений: 1,535	Расстояние Левенштейна: habrahabr.ru/post/114997/)/ Формула 1 (календарь чемпионата-2016): 26.11.2016 15:55 — Абу-Даби: http://ru.wikipedia.org/wiki/Гран-при_Абу-Даби — (квалификация)! Эфир: http://lion-tv.com/28-match-tv.html

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
Нечёткая кластеризация методом c-means	Smitt&Wesson	C++ Builder	34	30.10.2015 06:20
Кластеризация картинки..	goto ∞	Помощь студентам	7	15.04.2013 21:03
Кластеризация текстов(Java,Delphi)	Иванычи	Помощь студентам	0	21.05.2012 17:32
Кластеризация	Nelli22	Visual C++	0	23.11.2011 13:11