|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
22.06.2012, 12:40 | #1 |
Участник клуба
Регистрация: 21.11.2007
Сообщений: 1,690
|
Кластеризация текстовых документов и семантический поиск
За лето нужно собрать информацию(составить бизнес план).
Области: 1. Система тестирования знаний с свободной формой введения ответов(там есть и тестовая форма, и все очень сложно связано между собой) 2. Кластеризация текстовых документов. Новостные ленты, документы фирм, предприятий ... 3. Семантический поиск среди документов и внутри большого текста. Т.е. не просто поиск абсолютно идентичной последовательности символов, а с учетом ошибок в искомых словах и не учете незначимых слов между ними. Интересно мнение, будут ли востребованы программные решения в этих областях? Последний раз редактировалось Kostia; 22.06.2012 в 13:10. |
22.06.2012, 13:59 | #2 |
Старожил
Регистрация: 30.12.2009
Сообщений: 11,426
|
Третий вариант не сказал бы что востребован, не таким методом(я думаю) пользуются поисковые машаны для выявлиня однозначного копипаста или кривого рерайта. А вообще вариантов масса, например в библиотеке "не помню названия и автора, но помню кусок содержания".
Системы тестирования? о этих очень и очень много. Если попытаться создать общее решение создания системы тестирования в опр. пользователем виде, форме, размере, вопросами, вариантами ответов и так далее, то да, это будет востребовано. Ярким примером будет Inno Setup, явл. общим решением создания любых, абсолютно любых, инсталяторов. Про второй не понял немного. |
22.06.2012, 15:03 | #3 | |||
Участник клуба
Регистрация: 21.11.2007
Сообщений: 1,690
|
Цитата:
Также предполагается и именно семантический поиск по тексту или кучи документов, когда поисковой системе задаешь найти что-то, например "Найди определение системы", она его находит, выводит самый близкий найденный абзац или предложение и ниже в порядку убывания "доверия" остальные тексты/ссылки. Или спрашиваем который час, какая погода, кто пукнул в лужу, а программа не просто дает пачку ссылок, а дает вполне конкретный ответ. Знаю что подобная разработка велась в Новосибирске в одном из научных заведений академ городка, но проект был закрыт. Цитата:
Цитата:
Документы делятся на свои уникальные типы/классы И например есть поток новостей(или просто груда документов) которые нужно рассортировать по тематикам. В общем, грубо говоря, отделить белые фасолины от коричневых. Последний раз редактировалось Kostia; 22.06.2012 в 15:15. |
|||
22.06.2012, 15:49 | #4 | ||
Старожил
Регистрация: 04.02.2009
Сообщений: 17,351
|
Цитата:
Цитата:
Маньяк-самоучка
Utkin появился в результате деления на нуль. Осторожно! Альтернативная логика |
||
22.06.2012, 19:29 | #5 |
Участник клуба
Регистрация: 21.11.2007
Сообщений: 1,690
|
Если бы все было так просто )
Но общий подход для решения задач которые я описал выше от части уже разработан и идет его программная реализация. Разработка ведется для одной тестирующей системы для дистантников, но также планируется и более широкое использование разработанных алгоритмов, программных модулей и пр. Вот для того чтобы определиться с более перспективным(востребованным) направлением, чтобы сконцентрировать больше внимания именно на нем. PS: 2 и 3 вытекли из 1 |
22.06.2012, 19:37 | #6 | |
Старожил
Регистрация: 04.02.2009
Сообщений: 17,351
|
Цитата:
Маньяк-самоучка
Utkin появился в результате деления на нуль. Осторожно! Альтернативная логика |
|
22.06.2012, 20:20 | #7 |
Участник клуба
Регистрация: 21.11.2007
Сообщений: 1,690
|
Извиняюсь!
Простой пример это есть 3 слова ABC, в тексте нужно найти все возможные комбинации из A'B'C' + шум, где A'B'C' словоформы, а шум не значимые слова-связки и ошибки в словах, при этом чтобы семантический смысл ABC == A'B'C' + шум, и соответственно правая часть была согласованной, т.е. слова стояли в соответствующих словоформах. В терминах разрабатываемого алгоритма/подхода, это поиск контекста. Он может осуществляться в 2х видах, если мы имеем A и !A, то их "семантика" противоположна, но тематика одна и написание примерно одинаково. Поэтому можно поиск(слов и контекстов) осуществлять сделав жесткую схожесть по семантики и тематике, либо только по тематике. Пример: Красивый и некрасивый Тематика одна, а смысл разный и написание немного различны. И разные способы сравнения могут привести к абсолютно противоположным ответам. Но оба требуются, первый при оценивании правильности ответа(т.е. важна семантика), а при поиске слова/слов в документе нужен подход без жесткого соответствия семантики. Но оба этих поиска я обычно объединяю словами "семантический поиск", а тематику приравниваю к схожести слов(и др. более и менее абстрактных объектов) по написанию(точнее по их редакционному расстоянию). Про написание слов, тут отдельная история. Скажу что используется дистанция редактирования(редакционное расстояние, Расстояние Левенштейна). Вах, много писанины =( Последний раз редактировалось Kostia; 22.06.2012 в 20:29. |
22.06.2012, 20:38 | #8 |
Старожил
Регистрация: 04.02.2009
Сообщений: 17,351
|
БД с антиподами, существительными, глаголами, прилагательными и т.д. Разбор лексем.
Маньяк-самоучка
Utkin появился в результате деления на нуль. Осторожно! Альтернативная логика |
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
кнопка поиск документов | bosts | Общие вопросы Delphi | 1 | 28.05.2012 11:13 |
Поиск word документов с колонтитулам | asd2011 | Microsoft Office Word | 1 | 13.04.2011 04:22 |
Хранение и выгрузка файлов в Delphi (не сохранение и загрузка текстовых документов) | likerRr | Общие вопросы Delphi | 10 | 25.12.2010 01:21 |
Макрос на поиск текстовых совпадений | Svirepiy | Microsoft Office Excel | 5 | 23.12.2010 14:43 |
Поиск отрецензированных документов | Glun | Microsoft Office Word | 4 | 09.08.2010 17:18 |