|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
29.06.2018, 19:31 | #1 |
Старожил
Регистрация: 24.01.2011
Сообщений: 3,034
|
Список прилагательных к существительному
здравствуйте для проб с разборкой текста где можно скачать списки
стол хирургический;рентгеновский;письмен ный;теннисный? и по хорошему как делают чтобы в этом списке не плодить слова с ошибками тенисный, опечатками, как в программы эти слова добавляют сразу? или генерируют? как? |
29.06.2018, 22:43 | #2 |
Лис
Старожил
Регистрация: 18.09.2015
Сообщений: 2,409
|
База с ошибками это очень большая база, поэтому её не используют.
В общем случае алгоритм состоит из двух частей первая это проверка по словарю правильных слов и вторая проверка с учетом допустимых словоизменений. Для второй части применяют деревья решений и некоторые эвристики. Обычно берут что-то готовое. Я бы через OLE использовал тот что в MS Office. Что касается первой части вопроса. Скачать врятли удастся: скорее купить, либо арендовать сервис для проверки. Типо Dialogflow https://github.com/dkulagin/kartaslov Что-то можно взять но как основное не годится. Я бы взял Lib.ru выкачал всю прозу весь 1 тб разобрал на слова. Слова прогнал через словарь. http://odict.ru/ http://opencorpora.org/?page=about При помощи вероятностных методов снял бы омонимию. Либо через утилиту от яндекса, если лицензия позволит. https://tech.yandex.ru/mystem/ Разобрал бы на пары существительное предлог по расстоянию. На выходе получил бы пары. Возможно даже и писать не придётся, а взять что-то готовое с сайта https://nlpub.ru/Обработка_текста
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
У дзен программиста программа делает то что он хотел, а не то что он написал . |
30.06.2018, 12:42 | #3 |
Старожил
Регистрация: 24.01.2011
Сообщений: 3,034
|
спасибо за ответ, читаю инфу
Mystem — консольная программа. Ее следует запускать в терминале подскажите это как? то есть я качнул mystem.exe положил его по адресу: c:\mystem.exe я правильно понимаю, что если с командной строки, пошлю команду: c:\mystem.exe [--filter-] [c:\входной файл.txt] [c:\выходной файл.txt] то на c:\mystem.exe пошлёт текст входного файла, обработает его и положит в выходной файл?? так? в тоже время будет Строить разборы только с указанными граммемами - но я также не понял, как указать, например, что нужно, наприер Части речи и Падеж |
Опции темы | Поиск в этой теме |
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
С++ Сформировать список студентов по группам факультета ИВТ. Список по группам формировать по возрастанию количества неуспевающих студентов. Список выдать | UserNopro | Помощь студентам | 0 | 08.11.2017 14:31 |
лабораторная работа на тему Список спортсменов. задание отсортировать список | Гуменчук_Дарья | Помощь студентам | 3 | 15.03.2016 12:05 |
создать список л3 из элементов входящих и в список л1 и в список л2 | goosha_gio | C++ Builder | 1 | 27.06.2013 22:22 |
Создать односвязный список и вывести его на экран. Из этого списка создать новый список по указанному ниже правилу и новый список | San111 | Паскаль, Turbo Pascal, PascalABC.NET | 1 | 15.05.2012 22:08 |
Список с заглавным звеном, из текстового файла получить список из записей и по нему уже сделать задание | Zigfried | Помощь студентам | 2 | 04.10.2010 20:29 |