Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > IT форум > Помощь студентам
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 18.01.2013, 19:29   #1
Smogg
Участник клуба
 
Регистрация: 14.06.2011
Сообщений: 1,138
По умолчанию словарь словоформ русского языка

//Че б и не спросить... А вдруг? Задачка довольно известная, мож у кого есть...

В общем, мне нужен .txt список всех вариантов написания слов. Или внятная прожка для генерации оного. Но лучше уже сразу файлом.
Smogg вне форума Ответить с цитированием
Старый 18.01.2013, 19:35   #2
Smitt&Wesson
Старожил
 
Аватар для Smitt&Wesson
 
Регистрация: 31.05.2010
Сообщений: 13,543
По умолчанию

ёклмнопрстйцуукен-ихерсинм. Чем не словоформа?
Пиши пьяным, редактируй трезвым.
Справочник по алгоритмам С++ Builder
Smitt&Wesson вне форума Ответить с цитированием
Старый 18.01.2013, 20:04   #3
Smogg
Участник клуба
 
Регистрация: 14.06.2011
Сообщений: 1,138
По умолчанию

Имелось в виду нормальные, правильные варианты написания. Без падонковщины и ошибок выбора шаблона склонения/спряжения.
Smogg вне форума Ответить с цитированием
Старый 18.01.2013, 20:13   #4
Smitt&Wesson
Старожил
 
Аватар для Smitt&Wesson
 
Регистрация: 31.05.2010
Сообщений: 13,543
По умолчанию

Не хочешь "падонковщины", пиши так, чтобы тебя понимали. Приводи тексты (форматы). Если есть наработки - выкладывай, мы не звери, поможем.
Но если так, -"Я барин и вы мне обязаны", смею тебя заверить - ХРЕН ТЕБЕ ПОМОГУТ.
Пиши пьяным, редактируй трезвым.
Справочник по алгоритмам С++ Builder
Smitt&Wesson вне форума Ответить с цитированием
Старый 18.01.2013, 20:28   #5
Человек_Борща
Старожил
 
Аватар для Человек_Борща
 
Регистрация: 30.12.2009
Сообщений: 11,426
По умолчанию

Словарь русского языка. Бери и переписывай в txt А ещё лучше загугли его и найти конвертор базы в нужный вид. Делов не шибко много.
Человек_Борща вне форума Ответить с цитированием
Старый 18.01.2013, 20:39   #6
Smitt&Wesson
Старожил
 
Аватар для Smitt&Wesson
 
Регистрация: 31.05.2010
Сообщений: 13,543
По умолчанию

Человек_Борща, мы то всё понимаем, только ТС, куда-то пропал
Пиши пьяным, редактируй трезвым.
Справочник по алгоритмам С++ Builder
Smitt&Wesson вне форума Ответить с цитированием
Старый 18.01.2013, 20:55   #7
Stilet
Белик Виталий :)
Старожил
 
Аватар для Stilet
 
Регистрация: 23.07.2007
Сообщений: 57,097
По умолчанию

Цитата:
нужен .txt список всех вариантов написания слов.
Боюсь что он будет больше террабайта весом...
I'm learning to live...
Stilet вне форума Ответить с цитированием
Старый 18.01.2013, 22:08   #8
Sciv
Старожил
 
Аватар для Sciv
 
Регистрация: 16.05.2012
Сообщений: 3,211
По умолчанию

Цитата:
Боюсь что он будет больше террабайта весом...
это точно. Если записывать словоформы. Вот вариант писать в именительном падеже единственном числе и просто прописывать варианты окончаний для каждого падежа и числа... Но все-равно база данных будет выгоднее чем текстовый файл
Начал решать проблему с помощью регулярных выражений. Теперь решаю две проблемы...
Sciv вне форума Ответить с цитированием
Старый 18.01.2013, 22:10   #9
Smogg
Участник клуба
 
Регистрация: 14.06.2011
Сообщений: 1,138
По умолчанию

Если брать только грамматически правильные варианты и исключить специфические термины, с частотностью вхождения 1 штука на миллион слов текста, то словарь будет где-то метров двадцать самый-самый максимум.

Вот тут скрипт, но как там что на Perl я не понимаю.

Во вложениях продублирован скрипт, сам словарь сформированный скриптом и маленькая программка-генератор. Но она работает только с существительными и прилагательными.

В общем, словарь достаточно полный и без ошибок генерации. Но в нем нету где-то каждого сотого обычного слова, типа:
склонения "человек" (сам человек есть)
может
спасет
живем

Пытаюсь написать Т9 для компа и для меня проще искать уже в готовом массиве, чем генерировать на лету окончания.
Вложения
Тип файла: zip Slovormy.zip (2.10 Мб, 48 просмотров)
Тип файла: zip MorpherLiteSetup.zip (384.5 Кб, 32 просмотров)
Тип файла: rar ispell_gen_words.rar (2.1 Кб, 28 просмотров)

Последний раз редактировалось Smogg; 18.01.2013 в 22:28.
Smogg вне форума Ответить с цитированием
Старый 18.01.2013, 22:24   #10
Smitt&Wesson
Старожил
 
Аватар для Smitt&Wesson
 
Регистрация: 31.05.2010
Сообщений: 13,543
По умолчанию

Цитата:
Сообщение от Stilet Посмотреть сообщение
Боюсь что он будет больше террабайта весом...
Это весьма писсиместическая оценка. Предположим, что у всех слов, есть 6 вариантов написания (очень писсимистичное предположение, т.к. у некоторых слов вариантов нет). В словаре, 14-16 тысяч слов. 16000*6=96000. Учитывая, что в текстовом файле, каждая буква занимает 2 байта, а слово в среднем (опять-же максимально предположительно) состоит из 10-букв получим 96000*10*2-1920000 байт. Разделим это число на 1024 и получим 1875 Кбайт. Не очень много, а? Ну, прибавим ещё тех.инфу. Итого: 2 МБ.
Пиши пьяным, редактируй трезвым.
Справочник по алгоритмам С++ Builder

Последний раз редактировалось Smitt&Wesson; 18.01.2013 в 22:29.
Smitt&Wesson вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
некорректное отображение русского языка zlo_999 HTML и CSS 11 10.02.2015 13:19
Windows 8 - кракозябры русского языка tatianak99 Windows 0 24.11.2012 15:25
проблема русского языка в vcf malloy84 Свободное общение 1 14.01.2011 10:43
Словарь служебных слов языка delphi Kate68 Помощь студентам 1 09.11.2009 22:06