Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Работа для программиста > Фриланс
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 29.08.2010, 00:47   #1
ДенSID
Новичок
Джуниор
 
Регистрация: 28.08.2010
Сообщений: 0
По умолчанию Программа на matlab за денежное вознаграждение

короче у меня проблемка с курсовой работой:есть теоретическая часть,но не могу осилить практическую часть.программа нужна на matlab.суть всей работы заключается в поиске дубликатов текстовых файлов.имеется массив данных и с ее помощью нужно сравнить тексты на сколько близкими они являются. программа строится в два этапа.на первом мы представляем текст в заданном виде например хэш-коды md5,crc32,sha-1 либо другие способы tf,tf-idf....и тд.потом с помощью различных мер мы сравниваем полученные значения(мера Жаккарда,косинусная мера...).полученное значение от 0 до 1.чем ближе значение к 1 тем более близкие наши тексты(один-дубликат второго).по деньгам думаю 2-2.5к. Только сразу условие.если вы в этой области шарите-тогда пишите, так как работу надо сделать в очень короткие сроки и качественно.
P.S. В помощь для начала есть программа считающая md5 для текста,и вторая программа, считывающая из директории все текстовые файлы в txt и проводит разбор текстов.
ДенSID вне форума Ответить с цитированием
Старый 29.08.2010, 06:06   #2
Black Fregat
Программист
Участник клуба
 
Аватар для Black Fregat
 
Регистрация: 23.06.2009
Сообщений: 1,772
По умолчанию

Пишите подробнее black.fregat@gmail.com

Пока достаточно мало понятно, что именно Вы хотите сделать. Наибольшие вопросы вызывает вот эта фраза: "мы представляем текст в заданном виде например хэш-коды md5,crc32,sha-1". Дело в том, что перечисленные хэш-функции дают большое изменение функции при малых изменениях текста. Так что никакая мера над значениями md5 и sha-1 не позволит оценить близость самих текстов. Или вы будете насчитывать много md5 и sha-1 по разным кусочкам текстов? Честно говоря, тоже представляется весьма сомнительным..

Последний раз редактировалось Black Fregat; 29.08.2010 в 06:09.
Black Fregat вне форума Ответить с цитированием
Старый 29.08.2010, 06:52   #3
dimon_klopik
Новичок
Джуниор
 
Регистрация: 03.07.2010
Сообщений: 1
По умолчанию

согласен, задача поставлена весьма туманно - каким образом с помощью md5 можно определить близость текстов... впрочем, можно обсудить и разобраться что действительно вам нужно, ДенSID Для связи ICQ 577886327, почта klopin12@gmail.com или в Л/С.
dimon_klopik вне форума Ответить с цитированием
Старый 29.08.2010, 20:13   #4
ДенSID
Новичок
Джуниор
 
Регистрация: 28.08.2010
Сообщений: 0
По умолчанию

Md5 используется по сути для определения точных дубликатов,на сколько мне известно.и md5 у меня вычисляется для всего файла. Остальные 2 метода хэширования используются в алгоритмах tf, tf-idf и так далее. так вот например есть алгоритм представления текста называется LONG SENT: Весь текст разбивается на предложения,которые сортируются в порядке убывания длины.Потом берутся 2 самых длинных предложения и из них составляется строка.Потом для этой строки считается crc32 это и будет сигнатура документа. ну и все в таком духе.всего 19 методов представления текста и 9 мер.
ДенSID вне форума Ответить с цитированием
Старый 29.08.2010, 20:18   #5
ДенSID
Новичок
Джуниор
 
Регистрация: 28.08.2010
Сообщений: 0
По умолчанию

Black Fregat я Вам написал на почту,но вы пока не отвечаете
ДенSID вне форума Ответить с цитированием
Старый 29.08.2010, 21:56   #6
mikefreel
Заблокирован
 
Регистрация: 12.05.2010
Сообщений: 0
По умолчанию

номер ICQ: 565460353 или 480964456
mikefreelance@rambler.ru
mikefreel вне форума Ответить с цитированием
Старый 31.08.2010, 00:09   #7
ДенSID
Новичок
Джуниор
 
Регистрация: 28.08.2010
Сообщений: 0
По умолчанию

Работа взята.Закройте тему
ДенSID вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Программа на матрицу. Вознаграждение soon-end Помощь студентам 3 31.05.2010 22:41
Программа на матрицу 2. Вознаграждение soon-end Помощь студентам 4 31.05.2010 18:33
Программа на матрицу. Вознаграждение soon-end Фриланс 13 20.05.2010 06:46
Программа на массивы. Вознаграждение! soon-end Помощь студентам 1 20.05.2010 05:00