Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > IT форум > Помощь студентам
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 17.04.2012, 17:24   #1
Dilong-paradoxus
Новичок
Джуниор
 
Регистрация: 17.04.2012
Сообщений: 1
По умолчанию Как создать корпус текстов, если есть сам корпус с метатекстовой разметкой в xml и стеммер?

Дано:
1) Корпус текстов с метатекстовой разметкой – файл в xml, 10 Мб.
http://cs5841.userapi.com/u11029061/-3/w_e51c2432.jpg

2) Стеммер mystem, который размечает текст вот таким образом (файлы - и тот, который обрабатывается, и тот, который получается на выходе - должны быть в txt либо html):

В{в=PR=|в=S,сокр=им,ед|=S,сокр=им,м н|=S,сокр=род,ед|=S,сокр=род,мн|=S, сокр=дат,ед|=S,сокр=дат,мн|=S,сокр= вин,ед|=S,сокр=вин,мн|=S,сокр=твор, ед|=S,сокр=твор,мн|=S,сокр=пр,ед|=S ,сокр=пр,мн}этом{это=SPRO,ед,сред,н еод=пр|этот=APRO=пр,ед,муж|=APRO=пр ,ед,сред}сезоне{сезон=S,муж,неод=пр ,ед}правят{править=V,несов=непрош,м н,изъяв,3-л,пе|править=V,несов,нп=непрош,мн,и зъяв,3-л}бал{бал=S,муж,неод=им,ед|=S,муж,н еод=вин,ед}ботильоны{ботильон?=S,му ж,неод=им,мн|?=S,муж,неод=вин,мн}эт о{это=SPRO,ед,сред,неод=им|=SPRO,ед ,сред,неод=вин|этот=APRO=им,ед,сред |=APRO=вин,ед,сред|это=PART=}что-то{что-то=SPRO,ед,сред,неод=им|=SPRO,ед,ср ед,неод=вин}среднее{среднее=S,сред, неод=им,ед|=S,сред,неод=вин,ед|сред ний=A=им,ед,полн,сред|=A=вин,ед,пол н,сред}между{между=PR=}полусапожкам и{полусапожки=S,мн,неод=твор}и{и=IN TJ=|и=PART=|и=S,сокр=им,ед|=S,сокр= им,мн|=S,сокр=род,ед|=S,сокр=род,мн |=S,сокр=дат,ед|=S,сокр=дат,мн|=S,с окр=вин,ед|=S,сокр=вин,мн|=S,сокр=т вор,ед|=S,сокр=твор,мн|=S,сокр=пр,е д|=S,сокр=пр,мн|и=CONJ=}туфлями{туф ля=S,жен,неод=твор,мн}Предпочтитель нее{предпочтительно=ADV=срав|предпо чтительный=A=срав}выбирать{выбирать =V=инф,несов,пе}модели{модель=S,жен ,неод=им,мн|=S,жен,неод=род,ед|=S,ж ен,неод=дат,ед|=S,жен,неод=вин,мн|= S,жен,неод=пр,ед|модель=S,жен,од=им ,мн|=S,жен,од=род,ед|=S,жен,од=дат, ед|=S,жен,од=вин,мн|=S,жен,од=пр,ед }из{из=PR=}замши{замша=S,жен,неод=и м,мн|=S,жен,неод=род,ед|=S,жен,неод =вин,мн|замшить=V,сов=ед,пов,2-л,пе}или{или=PART=|или=CONJ=}ткани{ ткань=S,жен,неод=им,мн|=S,жен,неод= род,ед|=S,жен,неод=дат,ед|=S,жен,не од=вин,мн|=S,жен,неод=пр,ед}с{с=PR= |с=S,сокр=им,ед|=S,сокр=им,мн|=S,со кр=род,ед|=S,сокр=род,мн|=S,сокр=да т,ед|=S,сокр=дат,мн|=S,сокр=вин,ед| =S,сокр=вин,мн|=S,сокр=твор,ед|=S,с окр=твор,мн|=S,сокр=пр,ед|=S,сокр=п р,мн}открытыми{открывать=V=прош,тво р,мн,прич,полн,сов,страд|открытый=A =твор,мн,полн}носами{нос=S,муж,неод =твор,мн}или{или=PART=|или=CONJ=}за дниками

Что надо сделать: как-то автоматически морфоразметить корпус и сделать так, чтобы можно было искать тексты по ключевым словам, по источнику, а слова вместе с контекстом - по грамматическим формам (например, человеку нужны все неодушевлённые существительные в творительном падеже – он бы галочки поставил и ему бы выдались) и т.д.

Есть какие-нибудь проги для создания размеченных корпусов? Как вообще решаются такие задачи?

Последний раз редактировалось Dilong-paradoxus; 17.04.2012 в 17:41.
Dilong-paradoxus вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Хочу создать сам сайт. Скажите с чего начать,что скачать,чем пользоваться? Если незнаю язык хтмл? Андрей956 Общие вопросы C/C++ 5 17.06.2011 01:29
Как зарегистрироваться на turbofilm.ru , если есть инвайт ? spamer Свободное общение 0 02.01.2010 00:38
Посоветуйте выбрать корпус Bigtower. cybermax Компьютерное железо 4 01.11.2009 17:52
Какой у вас корпус системного блока? Sk!f Компьютерное железо 20 08.06.2009 01:06
Как создать xml документ? Longedok Помощь студентам 0 04.08.2008 16:48