Кластеризация текстовых документов и семантический поиск - Свободное общение

Kostia · 22.06.2012, 12:40

За лето нужно собрать информацию(составить бизнес план).

Области:
1. Система тестирования знаний с свободной формой введения ответов(там есть и тестовая форма, и все очень сложно связано между собой)
2. Кластеризация текстовых документов. Новостные ленты, документы фирм, предприятий ...
3. Семантический поиск среди документов и внутри большого текста. Т.е. не просто поиск абсолютно идентичной последовательности символов, а с учетом ошибок в искомых словах и не учете незначимых слов между ними.

Интересно мнение, будут ли востребованы программные решения в этих областях?

Человек_Борща · 22.06.2012, 13:59

Третий вариант не сказал бы что востребован, не таким методом(я думаю) пользуются поисковые машаны для выявлиня однозначного копипаста или кривого рерайта. А вообще вариантов масса, например в библиотеке "не помню названия и автора, но помню кусок содержания".

Системы тестирования? о этих очень и очень много. Если попытаться создать общее решение создания системы тестирования в опр. пользователем виде, форме, размере, вопросами, вариантами ответов и так далее, то да, это будет востребовано.
Ярким примером будет Inno Setup, явл. общим решением создания любых, абсолютно любых, инсталяторов.

Про второй не понял немного.

Kostia · 22.06.2012, 15:03

Цитата:

Третий вариант не сказал бы что востребован, не таким методом(я думаю) пользуются поисковые машаны для выявлиня однозначного копипаста или кривого рерайта.

Тут много направление, просто при поиске в тексте часто раздражает та самая однозначность(совпадение символ в символ) при поиски подстроки в тексте. Вполне вероятно что я не помню порядок слов(да и всех слов фразы, а только ключевые) и правильность их написания, но найти хочу тот участок которым мне нужно, на странице сайта, в документе, книге. Это правда не совсем семантический поиск, но и обычным его не назовешь.
Также предполагается и именно семантический поиск по тексту или кучи документов, когда поисковой системе задаешь найти что-то, например "Найди определение системы", она его находит, выводит самый близкий найденный абзац или предложение и ниже в порядку убывания "доверия" остальные тексты/ссылки. Или спрашиваем который час, какая погода, кто пукнул в лужу, а программа не просто дает пачку ссылок, а дает вполне конкретный ответ. Знаю что подобная разработка велась в Новосибирске в одном из научных заведений академ городка, но проект был закрыт.

Цитата:

Системы тестирования? о этих очень и очень много. Если попытаться создать общее решение создания системы тестирования в опр. пользователем виде, форме, размере, вопросами, вариантами ответов и так далее, то да, это будет востребовано.

И таких систем полно, а вот чтобы можно было отвечать в свободной форме, а потом программа по ответу формировала(пока что только искала в базе заранее заготовленные) и задавала дополнительные и наводящие вопросы.

Цитата:

Про второй не понял немного.

Новости делятся на рубрики: Политика, Наука ...
Документы делятся на свои уникальные типы/классы
И например есть поток новостей(или просто груда документов) которые нужно рассортировать по тематикам. В общем, грубо говоря, отделить белые фасолины от коричневых.

Utkin · 22.06.2012, 15:49

Цитата:

Тут много направление, просто при поиске в тексте часто раздражает та самая однозначность(совпадение символ в символ) при поиски подстроки в тексте. Вполне вероятно что я не помню порядок слов(да и всех слов фразы, а только ключевые) и правильность их написания, но найти хочу тот участок которым мне нужно, на странице сайта, в документе, книге. Это правда не совсем семантический поиск, но и обычным его не назовешь.

Ну тут просто надо смотреть в регулярные выражения.

Цитата:

И например есть поток новостей(или просто груда документов) которые нужно рассортировать по тематикам. В общем, грубо говоря, отделить белые фасолины от коричневых.

Это частный случай третей задачи.

Kostia · 22.06.2012, 19:29

Если бы все было так просто )
Но общий подход для решения задач которые я описал выше от части уже разработан и идет его программная реализация. Разработка ведется для одной тестирующей системы для дистантников, но также планируется и более широкое использование разработанных алгоритмов, программных модулей и пр. Вот для того чтобы определиться с более перспективным(востребованным) направлением, чтобы сконцентрировать больше внимания именно на нем.

PS: 2 и 3 вытекли из 1

Utkin · 22.06.2012, 19:37

Цитата:

Если бы все было так просто )

Не увидел, почему все так сложно

. Получается вы как-то описали задачу вскользь, не упомянув ряд факторов, влияющих на принятие решения, а это не есть хорошо.

Kostia · 22.06.2012, 20:20

Извиняюсь!
Простой пример это есть 3 слова ABC, в тексте нужно найти все возможные комбинации из A'B'C' + шум, где A'B'C' словоформы, а шум не значимые слова-связки и ошибки в словах, при этом чтобы семантический смысл ABC == A'B'C' + шум, и соответственно правая часть была согласованной, т.е. слова стояли в соответствующих словоформах.
В терминах разрабатываемого алгоритма/подхода, это поиск контекста.
Он может осуществляться в 2х видах, если мы имеем A и !A, то их "семантика" противоположна, но тематика одна и написание примерно одинаково. Поэтому можно поиск(слов и контекстов) осуществлять сделав жесткую схожесть по семантики и тематике, либо только по тематике.

Пример:

Красивый и некрасивый

Тематика одна, а смысл разный и написание немного различны. И разные способы сравнения могут привести к абсолютно противоположным ответам. Но оба требуются, первый при оценивании правильности ответа(т.е. важна семантика), а при поиске слова/слов в документе нужен подход без жесткого соответствия семантики.

Но оба этих поиска я обычно объединяю словами "семантический поиск", а тематику приравниваю к схожести слов(и др. более и менее абстрактных объектов) по написанию(точнее по их редакционному расстоянию).

Про написание слов, тут отдельная история. Скажу что используется дистанция редактирования(редакционное расстояние, Расстояние Левенштейна).

Вах, много писанины =(

Utkin · 22.06.2012, 20:38

БД с антиподами, существительными, глаголами, прилагательными и т.д. Разбор лексем.

22.06.2012, 12:40	#1
Kostia Участник клуба Регистрация: 21.11.2007 Сообщений: 1,690	Кластеризация текстовых документов и семантический поиск За лето нужно собрать информацию(составить бизнес план). Области: 1. Система тестирования знаний с свободной формой введения ответов(там есть и тестовая форма, и все очень сложно связано между собой) 2. Кластеризация текстовых документов. Новостные ленты, документы фирм, предприятий ... 3. Семантический поиск среди документов и внутри большого текста. Т.е. не просто поиск абсолютно идентичной последовательности символов, а с учетом ошибок в искомых словах и не учете незначимых слов между ними. Интересно мнение, будут ли востребованы программные решения в этих областях? Последний раз редактировалось Kostia; 22.06.2012 в 13:10.

22.06.2012, 20:20	#7
Kostia Участник клуба Регистрация: 21.11.2007 Сообщений: 1,690	Извиняюсь! Простой пример это есть 3 слова ABC, в тексте нужно найти все возможные комбинации из A'B'C' + шум, где A'B'C' словоформы, а шум не значимые слова-связки и ошибки в словах, при этом чтобы семантический смысл ABC == A'B'C' + шум, и соответственно правая часть была согласованной, т.е. слова стояли в соответствующих словоформах. В терминах разрабатываемого алгоритма/подхода, это поиск контекста. Он может осуществляться в 2х видах, если мы имеем A и !A, то их "семантика" противоположна, но тематика одна и написание примерно одинаково. Поэтому можно поиск(слов и контекстов) осуществлять сделав жесткую схожесть по семантики и тематике, либо только по тематике. Пример: Красивый и некрасивый Тематика одна, а смысл разный и написание немного различны. И разные способы сравнения могут привести к абсолютно противоположным ответам. Но оба требуются, первый при оценивании правильности ответа(т.е. важна семантика), а при поиске слова/слов в документе нужен подход без жесткого соответствия семантики. Но оба этих поиска я обычно объединяю словами "семантический поиск", а тематику приравниваю к схожести слов(и др. более и менее абстрактных объектов) по написанию(точнее по их редакционному расстоянию). Про написание слов, тут отдельная история. Скажу что используется дистанция редактирования(редакционное расстояние, Расстояние Левенштейна). Вах, много писанины =( Последний раз редактировалось Kostia; 22.06.2012 в 20:29.

22.06.2012, 20:38	#8
Utkin Старожил Регистрация: 04.02.2009 Сообщений: 17,351	БД с антиподами, существительными, глаголами, прилагательными и т.д. Разбор лексем. Маньяк-самоучка Utkin появился в результате деления на нуль. Осторожно! Альтернативная логика

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
кнопка поиск документов	bosts	Общие вопросы Delphi	1	28.05.2012 11:13
Поиск word документов с колонтитулам	asd2011	Microsoft Office Word	1	13.04.2011 04:22
Хранение и выгрузка файлов в Delphi (не сохранение и загрузка текстовых документов)	likerRr	Общие вопросы Delphi	10	25.12.2010 01:21
Макрос на поиск текстовых совпадений	Svirepiy	Microsoft Office Excel	5	23.12.2010 14:43
Поиск отрецензированных документов	Glun	Microsoft Office Word	4	09.08.2010 17:18

22.06.2012, 13:59	#2
Человек_Борща Старожил Регистрация: 30.12.2009 Сообщений: 11,426	Третий вариант не сказал бы что востребован, не таким методом(я думаю) пользуются поисковые машаны для выявлиня однозначного копипаста или кривого рерайта. А вообще вариантов масса, например в библиотеке "не помню названия и автора, но помню кусок содержания". Системы тестирования? о этих очень и очень много. Если попытаться создать общее решение создания системы тестирования в опр. пользователем виде, форме, размере, вопросами, вариантами ответов и так далее, то да, это будет востребовано. Ярким примером будет Inno Setup, явл. общим решением создания любых, абсолютно любых, инсталяторов. Про второй не понял немного.

22.06.2012, 19:29	#5
Kostia Участник клуба Регистрация: 21.11.2007 Сообщений: 1,690	Если бы все было так просто ) Но общий подход для решения задач которые я описал выше от части уже разработан и идет его программная реализация. Разработка ведется для одной тестирующей системы для дистантников, но также планируется и более широкое использование разработанных алгоритмов, программных модулей и пр. Вот для того чтобы определиться с более перспективным(востребованным) направлением, чтобы сконцентрировать больше внимания именно на нем. PS: 2 и 3 вытекли из 1