Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Клуб программистов > Свободное общение
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 22.06.2012, 12:40   #1
Kostia
Участник клуба
 
Аватар для Kostia
 
Регистрация: 21.11.2007
Сообщений: 1,690
По умолчанию Кластеризация текстовых документов и семантический поиск

За лето нужно собрать информацию(составить бизнес план).

Области:
1. Система тестирования знаний с свободной формой введения ответов(там есть и тестовая форма, и все очень сложно связано между собой)
2. Кластеризация текстовых документов. Новостные ленты, документы фирм, предприятий ...
3. Семантический поиск среди документов и внутри большого текста. Т.е. не просто поиск абсолютно идентичной последовательности символов, а с учетом ошибок в искомых словах и не учете незначимых слов между ними.

Интересно мнение, будут ли востребованы программные решения в этих областях?

Последний раз редактировалось Kostia; 22.06.2012 в 13:10.
Kostia вне форума Ответить с цитированием
Старый 22.06.2012, 13:59   #2
Человек_Борща
Старожил
 
Аватар для Человек_Борща
 
Регистрация: 30.12.2009
Сообщений: 11,426
По умолчанию

Третий вариант не сказал бы что востребован, не таким методом(я думаю) пользуются поисковые машаны для выявлиня однозначного копипаста или кривого рерайта. А вообще вариантов масса, например в библиотеке "не помню названия и автора, но помню кусок содержания".

Системы тестирования? о этих очень и очень много. Если попытаться создать общее решение создания системы тестирования в опр. пользователем виде, форме, размере, вопросами, вариантами ответов и так далее, то да, это будет востребовано.
Ярким примером будет Inno Setup, явл. общим решением создания любых, абсолютно любых, инсталяторов.

Про второй не понял немного.
Человек_Борща вне форума Ответить с цитированием
Старый 22.06.2012, 15:03   #3
Kostia
Участник клуба
 
Аватар для Kostia
 
Регистрация: 21.11.2007
Сообщений: 1,690
По умолчанию

Цитата:
Третий вариант не сказал бы что востребован, не таким методом(я думаю) пользуются поисковые машаны для выявлиня однозначного копипаста или кривого рерайта.
Тут много направление, просто при поиске в тексте часто раздражает та самая однозначность(совпадение символ в символ) при поиски подстроки в тексте. Вполне вероятно что я не помню порядок слов(да и всех слов фразы, а только ключевые) и правильность их написания, но найти хочу тот участок которым мне нужно, на странице сайта, в документе, книге. Это правда не совсем семантический поиск, но и обычным его не назовешь.
Также предполагается и именно семантический поиск по тексту или кучи документов, когда поисковой системе задаешь найти что-то, например "Найди определение системы", она его находит, выводит самый близкий найденный абзац или предложение и ниже в порядку убывания "доверия" остальные тексты/ссылки. Или спрашиваем который час, какая погода, кто пукнул в лужу, а программа не просто дает пачку ссылок, а дает вполне конкретный ответ. Знаю что подобная разработка велась в Новосибирске в одном из научных заведений академ городка, но проект был закрыт.
Цитата:
Системы тестирования? о этих очень и очень много. Если попытаться создать общее решение создания системы тестирования в опр. пользователем виде, форме, размере, вопросами, вариантами ответов и так далее, то да, это будет востребовано.
И таких систем полно, а вот чтобы можно было отвечать в свободной форме, а потом программа по ответу формировала(пока что только искала в базе заранее заготовленные) и задавала дополнительные и наводящие вопросы.
Цитата:
Про второй не понял немного.
Новости делятся на рубрики: Политика, Наука ...
Документы делятся на свои уникальные типы/классы
И например есть поток новостей(или просто груда документов) которые нужно рассортировать по тематикам. В общем, грубо говоря, отделить белые фасолины от коричневых.

Последний раз редактировалось Kostia; 22.06.2012 в 15:15.
Kostia вне форума Ответить с цитированием
Старый 22.06.2012, 15:49   #4
Utkin
Старожил
 
Аватар для Utkin
 
Регистрация: 04.02.2009
Сообщений: 17,351
По умолчанию

Цитата:
Тут много направление, просто при поиске в тексте часто раздражает та самая однозначность(совпадение символ в символ) при поиски подстроки в тексте. Вполне вероятно что я не помню порядок слов(да и всех слов фразы, а только ключевые) и правильность их написания, но найти хочу тот участок которым мне нужно, на странице сайта, в документе, книге. Это правда не совсем семантический поиск, но и обычным его не назовешь.
Ну тут просто надо смотреть в регулярные выражения.

Цитата:
И например есть поток новостей(или просто груда документов) которые нужно рассортировать по тематикам. В общем, грубо говоря, отделить белые фасолины от коричневых.
Это частный случай третей задачи.
Маньяк-самоучка
Utkin появился в результате деления на нуль.
Осторожно! Альтернативная логика
Utkin вне форума Ответить с цитированием
Старый 22.06.2012, 19:29   #5
Kostia
Участник клуба
 
Аватар для Kostia
 
Регистрация: 21.11.2007
Сообщений: 1,690
По умолчанию

Если бы все было так просто )
Но общий подход для решения задач которые я описал выше от части уже разработан и идет его программная реализация. Разработка ведется для одной тестирующей системы для дистантников, но также планируется и более широкое использование разработанных алгоритмов, программных модулей и пр. Вот для того чтобы определиться с более перспективным(востребованным) направлением, чтобы сконцентрировать больше внимания именно на нем.

PS: 2 и 3 вытекли из 1
Kostia вне форума Ответить с цитированием
Старый 22.06.2012, 19:37   #6
Utkin
Старожил
 
Аватар для Utkin
 
Регистрация: 04.02.2009
Сообщений: 17,351
По умолчанию

Цитата:
Если бы все было так просто )
Не увидел, почему все так сложно . Получается вы как-то описали задачу вскользь, не упомянув ряд факторов, влияющих на принятие решения, а это не есть хорошо.
Маньяк-самоучка
Utkin появился в результате деления на нуль.
Осторожно! Альтернативная логика
Utkin вне форума Ответить с цитированием
Старый 22.06.2012, 20:20   #7
Kostia
Участник клуба
 
Аватар для Kostia
 
Регистрация: 21.11.2007
Сообщений: 1,690
По умолчанию

Извиняюсь!
Простой пример это есть 3 слова ABC, в тексте нужно найти все возможные комбинации из A'B'C' + шум, где A'B'C' словоформы, а шум не значимые слова-связки и ошибки в словах, при этом чтобы семантический смысл ABC == A'B'C' + шум, и соответственно правая часть была согласованной, т.е. слова стояли в соответствующих словоформах.
В терминах разрабатываемого алгоритма/подхода, это поиск контекста.
Он может осуществляться в 2х видах, если мы имеем A и !A, то их "семантика" противоположна, но тематика одна и написание примерно одинаково. Поэтому можно поиск(слов и контекстов) осуществлять сделав жесткую схожесть по семантики и тематике, либо только по тематике.

Пример:

Красивый и некрасивый

Тематика одна, а смысл разный и написание немного различны. И разные способы сравнения могут привести к абсолютно противоположным ответам. Но оба требуются, первый при оценивании правильности ответа(т.е. важна семантика), а при поиске слова/слов в документе нужен подход без жесткого соответствия семантики.

Но оба этих поиска я обычно объединяю словами "семантический поиск", а тематику приравниваю к схожести слов(и др. более и менее абстрактных объектов) по написанию(точнее по их редакционному расстоянию).

Про написание слов, тут отдельная история. Скажу что используется дистанция редактирования(редакционное расстояние, Расстояние Левенштейна).

Вах, много писанины =(

Последний раз редактировалось Kostia; 22.06.2012 в 20:29.
Kostia вне форума Ответить с цитированием
Старый 22.06.2012, 20:38   #8
Utkin
Старожил
 
Аватар для Utkin
 
Регистрация: 04.02.2009
Сообщений: 17,351
По умолчанию

БД с антиподами, существительными, глаголами, прилагательными и т.д. Разбор лексем.
Маньяк-самоучка
Utkin появился в результате деления на нуль.
Осторожно! Альтернативная логика
Utkin вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
кнопка поиск документов bosts Общие вопросы Delphi 1 28.05.2012 11:13
Поиск word документов с колонтитулам asd2011 Microsoft Office Word 1 13.04.2011 04:22
Хранение и выгрузка файлов в Delphi (не сохранение и загрузка текстовых документов) likerRr Общие вопросы Delphi 10 25.12.2010 01:21
Макрос на поиск текстовых совпадений Svirepiy Microsoft Office Excel 5 23.12.2010 14:43
Поиск отрецензированных документов Glun Microsoft Office Word 4 09.08.2010 17:18