Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Клуб программистов > Свободное общение
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 29.06.2018, 19:31   #1
Ципихович Эндрю
Старожил
 
Регистрация: 24.01.2011
Сообщений: 3,034
По умолчанию Список прилагательных к существительному

здравствуйте для проб с разборкой текста где можно скачать списки
стол хирургический;рентгеновский;письмен ный;теннисный?
и по хорошему как делают чтобы в этом списке не плодить слова с ошибками тенисный, опечатками, как в программы эти слова добавляют сразу? или генерируют? как?
Ципихович Эндрю вне форума Ответить с цитированием
Старый 29.06.2018, 22:43   #2
Pavia
Лис
Старожил
 
Аватар для Pavia
 
Регистрация: 18.09.2015
Сообщений: 2,409
По умолчанию

База с ошибками это очень большая база, поэтому её не используют.
В общем случае алгоритм состоит из двух частей первая это проверка по словарю правильных слов и вторая проверка с учетом допустимых словоизменений. Для второй части применяют деревья решений и некоторые эвристики.

Обычно берут что-то готовое. Я бы через OLE использовал тот что в MS Office.

Что касается первой части вопроса. Скачать врятли удастся: скорее купить, либо арендовать сервис для проверки.
Типо Dialogflow

https://github.com/dkulagin/kartaslov
Что-то можно взять но как основное не годится.

Я бы взял Lib.ru выкачал всю прозу весь 1 тб разобрал на слова. Слова прогнал через словарь.

http://odict.ru/
http://opencorpora.org/?page=about

При помощи вероятностных методов снял бы омонимию.

Либо через утилиту от яндекса, если лицензия позволит.
https://tech.yandex.ru/mystem/

Разобрал бы на пары существительное предлог по расстоянию. На выходе получил бы пары.

Возможно даже и писать не придётся, а взять что-то готовое с сайта https://nlpub.ru/Обработка_текста
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
У дзен программиста программа делает то что он хотел, а не то что он написал .
Pavia вне форума Ответить с цитированием
Старый 30.06.2018, 12:42   #3
Ципихович Эндрю
Старожил
 
Регистрация: 24.01.2011
Сообщений: 3,034
По умолчанию

спасибо за ответ, читаю инфу
Mystem — консольная программа. Ее следует запускать в терминале
подскажите это как?
то есть я качнул mystem.exe
положил его по адресу: c:\mystem.exe
я правильно понимаю, что если с командной строки, пошлю команду:
c:\mystem.exe [--filter-] [c:\входной файл.txt] [c:\выходной файл.txt]
то на c:\mystem.exe пошлёт текст входного файла, обработает его и положит в выходной файл??
так?
в тоже время будет Строить разборы только с указанными граммемами - но я также не понял, как указать, например, что нужно, наприер Части речи и Падеж
Ципихович Эндрю вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
С++ Сформировать список студентов по группам факультета ИВТ. Список по группам формировать по возрастанию количества неуспевающих студентов. Список выдать UserNopro Помощь студентам 0 08.11.2017 14:31
лабораторная работа на тему Список спортсменов. задание отсортировать список Гуменчук_Дарья Помощь студентам 3 15.03.2016 12:05
создать список л3 из элементов входящих и в список л1 и в список л2 goosha_gio C++ Builder 1 27.06.2013 22:22
Создать односвязный список и вывести его на экран. Из этого списка создать новый список по указанному ниже правилу и новый список San111 Паскаль, Turbo Pascal, PascalABC.NET 1 15.05.2012 22:08
Список с заглавным звеном, из текстового файла получить список из записей и по нему уже сделать задание Zigfried Помощь студентам 2 04.10.2010 20:29