|
|
Регистрация Восстановить пароль |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
|
Опции темы | Поиск в этой теме |
05.12.2012, 11:34 | #11 | ||
Участник клуба
Регистрация: 21.11.2007
Сообщений: 1,690
|
Цитата:
Цитата:
Статью я полностью уже переписал, сейчас доделываю практические пример. Конкретно: Была разработана некоторая площадка для тестов в виде сайта. На сайте есть просмотр и админка. В админке можно добавлять стать в просмотре их просматривать. Реализован нечеткий поиск в заголовках статей. Ждет. Реализация поиска возможных мест внутри статьи которые могли бы ссылаться на уже имеющиеся стать на сайте. Например, есть у нас кулинарный сайт со статьями. Допустим у нас есть статья про сыр и какой то рецепт или еще одна статья где слово сыр упоминается, то программа(при желании) автоматически делает ссылку на имеющуюся статью про сыр при сохранении/редактировании статьи, где про сыр упоминается. Ждет. Нечеткий поиск внутри статьи.(да и внутри любого большого документа) Задача решить проблему опечаток, пропуска слов в искомой фразе и перестановку слов местами. |
||
05.12.2012, 18:00 | #12 | |||
Старожил
Регистрация: 08.04.2012
Сообщений: 3,229
|
Цитата:
Цитата:
Мой вопрос касался определений. Я бы хотел получить ответ на вопрос: чем одно определение отличается от другого? Цитата:
Я, наоборот, хотел найти в статье теорию. Но ... тоже не нашел. Интересно, что же в статье было? Ладно, посмотрим, что будет после переделки. |
|||
05.12.2012, 19:53 | #13 | |
Участник клуба
Регистрация: 21.11.2007
Сообщений: 1,690
|
Цитата:
Относительно символьных строк: Медиана - это элемент множества наборов символов, сумма расстояния от которой до остальных элементов минимальна. Обобщенная медиана, это такой набор символов, который минимизирует(абсолютный минимум) сумму расстояний от самого себя, для остальных элементов множества. Самый близкий элемент множества к обобщенной медиане, есть медиана этого множества. Поэтому медиану выгодней всего брать как первое приближение для дальнейшего поиска обобщенной медианы. Уж и не знаю как еще объяснить. И еще, выложу что уже написал, просьба покритиковать если не сложно. Последний раз редактировалось Kostia; 05.12.2012 в 20:07. |
|
07.12.2012, 15:05 | #14 |
Старожил
Регистрация: 08.04.2012
Сообщений: 3,229
|
Все равно непонятно.
Если у нас есть некоторое множество, и мы рассматриваем именно его, это автоматически означает, что ничего кроме элементов этого множества у нас нет. Тогда что же именно может быть обобщенной медианой? В принципе, мы могли бы определить некоторое множество, а в нем одно или несколько подмножеств, и после этого вводить медиану для данного подмножества как элемент этого же подмножества, а обобщенную медиану - как элемент множества, который не обязательно входит в подмножество. Но для этого нам принципиально определить не один объект типа множество, а минимум два: множество и его подмножество. В общем, что-то с чем-то не состыкуется. |
07.12.2012, 15:25 | #15 |
Старожил
Регистрация: 08.04.2012
Сообщений: 3,229
|
По поводу статьи:
1. Вычитать орфографию и пунктуацию. 2. Отсутствует определение расстояния Хемминга. Сильное подозрение, что в (1) смешаны в кучу условие и результат. 3. Правильно ли я понимаю, что расстояние между гистограммами отличается от расстояния между неупорядоченными наборами только метрикой, а в силу произвольности выбора метрики - РМНН - частный случай РМГ? 4. Очень хотелось бы, чтобы определения вводились одним и тем же способом. А то часть - формулами, часть - алгоритмом, часть - вообще отсутствует. 5. Статья по-прежнему посвящена исключительно метрике Левенштейна, к которой в начале зачем-то приведены неполные и разнородные определения других метрик без каких-либо характеристик, описаний достоинств и недостатков и сравнительного анализа. 6. Я так понимаю, сами разделы "Сравнение" и "Применение", а также все разделы, которые планируется разместить между ними, а также разделы после "Применение" еще не дописаны? |
07.12.2012, 18:09 | #16 | ||||
Участник клуба
Регистрация: 21.11.2007
Сообщений: 1,690
|
Цитата:
Возьмем в качестве центра пустую строку(пустой список, набор символов ...) а все остальные расположим в соответствии с расстоянием(расстояние Левенштейна, или просто по кол-ву символов) от центра, это будет радиус, а угол будет меняться от 0 до 2*pi с шагом 1 / (!lenght)(1 / факториал длины набора). Т.е. если представить, то в первом от центра круге, будет алфавит, а дальше все возможные комбинации наборов разной длины из элементов этого алфавита. И мы работаем c подмножеством этого множества. Цитата:
Цитата:
Цитата:
По остальным пунктам буду стараться и не лениться, но тогда статься сильно разбухнет =) Спасибо большое, за то что потратили свое время и указали мне в каком направлении двигаться и что исправить. |
||||
20.12.2012, 13:07 | #17 |
Участник клуба
Регистрация: 21.11.2007
Сообщений: 1,690
|
Уф. Отстрелялся. Даже попал в тройку лидеров на факультете. =) Делюсь презентацией: http://prezi.com/dq8amaj2xiky/neurot...c=ref-26645919
Готов ответить на вопросы по презентации, т.к. многие моменты там не освещены, они были просто проговорены. Последний раз редактировалось Kostia; 20.12.2012 в 13:11. |
15.02.2013, 00:06 | #18 |
Участник клуба
Регистрация: 21.11.2007
Сообщений: 1,690
|
Что-то меня этой ночь на подвиги потянуло =)
На скрине пример программы которая осуществляет поиск по словарю и в качестве меры сравнения используется расстояние Левенштейна + некоторые модификации. Я в поле ввел слово "пятдьест" т.е. допустил 2 ошибки, транспозиция и удаление символа. Довольно таки частые ошибки, программа на первое место поставила именно то слово, что я и имел ввиду, даже при условии что используется не взвешенная стратегия сравнивания. Следующим шагом будет обучение программы, т.е. сбор информации об опечатках и использование этой информации на практике. ________________Пт., 15 февр.________________ Провел небольшую оптимизация алгоритма, ввел операцию дельней перестановки, т.е. транпозиция не только рядом стоящих символов, а через заданное кол-во. Если выставить этот параметр равным 2, то для того же входного значения "пятдьест" получаем: пятьдесят пятеро пятьсот протест пятиться пятка дядька портьера пьеса пята потеха Последний раз редактировалось Kostia; 15.02.2013 в 10:16. |
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Обработка символьных строк. (TurboC++) | flamen1003 | Помощь студентам | 0 | 24.04.2012 01:07 |
Обработка Символьных Строк | неоспоримый | Помощь студентам | 2 | 01.04.2012 21:04 |
Обработка символьных строк.Шифровка перестановками.Паскаль. | Lerika Lover | Помощь студентам | 0 | 28.12.2011 15:37 |
Обработка символьных строк | 1OffSide | Общие вопросы C/C++ | 1 | 21.12.2010 01:07 |
подкоректировать.обработка символьных данных и строк | felmor | Паскаль, Turbo Pascal, PascalABC.NET | 1 | 25.12.2008 19:12 |