|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
17.04.2012, 17:24 | #1 |
Новичок
Джуниор
Регистрация: 17.04.2012
Сообщений: 1
|
Как создать корпус текстов, если есть сам корпус с метатекстовой разметкой в xml и стеммер?
Дано:
1) Корпус текстов с метатекстовой разметкой – файл в xml, 10 Мб. http://cs5841.userapi.com/u11029061/-3/w_e51c2432.jpg 2) Стеммер mystem, который размечает текст вот таким образом (файлы - и тот, который обрабатывается, и тот, который получается на выходе - должны быть в txt либо html): В{в=PR=|в=S,сокр=им,ед|=S,сокр=им,м н|=S,сокр=род,ед|=S,сокр=род,мн|=S, сокр=дат,ед|=S,сокр=дат,мн|=S,сокр= вин,ед|=S,сокр=вин,мн|=S,сокр=твор, ед|=S,сокр=твор,мн|=S,сокр=пр,ед|=S ,сокр=пр,мн}этом{это=SPRO,ед,сред,н еод=пр|этот=APRO=пр,ед,муж|=APRO=пр ,ед,сред}сезоне{сезон=S,муж,неод=пр ,ед}правят{править=V,несов=непрош,м н,изъяв,3-л,пе|править=V,несов,нп=непрош,мн,и зъяв,3-л}бал{бал=S,муж,неод=им,ед|=S,муж,н еод=вин,ед}ботильоны{ботильон?=S,му ж,неод=им,мн|?=S,муж,неод=вин,мн}эт о{это=SPRO,ед,сред,неод=им|=SPRO,ед ,сред,неод=вин|этот=APRO=им,ед,сред |=APRO=вин,ед,сред|это=PART=}что-то{что-то=SPRO,ед,сред,неод=им|=SPRO,ед,ср ед,неод=вин}среднее{среднее=S,сред, неод=им,ед|=S,сред,неод=вин,ед|сред ний=A=им,ед,полн,сред|=A=вин,ед,пол н,сред}между{между=PR=}полусапожкам и{полусапожки=S,мн,неод=твор}и{и=IN TJ=|и=PART=|и=S,сокр=им,ед|=S,сокр= им,мн|=S,сокр=род,ед|=S,сокр=род,мн |=S,сокр=дат,ед|=S,сокр=дат,мн|=S,с окр=вин,ед|=S,сокр=вин,мн|=S,сокр=т вор,ед|=S,сокр=твор,мн|=S,сокр=пр,е д|=S,сокр=пр,мн|и=CONJ=}туфлями{туф ля=S,жен,неод=твор,мн}Предпочтитель нее{предпочтительно=ADV=срав|предпо чтительный=A=срав}выбирать{выбирать =V=инф,несов,пе}модели{модель=S,жен ,неод=им,мн|=S,жен,неод=род,ед|=S,ж ен,неод=дат,ед|=S,жен,неод=вин,мн|= S,жен,неод=пр,ед|модель=S,жен,од=им ,мн|=S,жен,од=род,ед|=S,жен,од=дат, ед|=S,жен,од=вин,мн|=S,жен,од=пр,ед }из{из=PR=}замши{замша=S,жен,неод=и м,мн|=S,жен,неод=род,ед|=S,жен,неод =вин,мн|замшить=V,сов=ед,пов,2-л,пе}или{или=PART=|или=CONJ=}ткани{ ткань=S,жен,неод=им,мн|=S,жен,неод= род,ед|=S,жен,неод=дат,ед|=S,жен,не од=вин,мн|=S,жен,неод=пр,ед}с{с=PR= |с=S,сокр=им,ед|=S,сокр=им,мн|=S,со кр=род,ед|=S,сокр=род,мн|=S,сокр=да т,ед|=S,сокр=дат,мн|=S,сокр=вин,ед| =S,сокр=вин,мн|=S,сокр=твор,ед|=S,с окр=твор,мн|=S,сокр=пр,ед|=S,сокр=п р,мн}открытыми{открывать=V=прош,тво р,мн,прич,полн,сов,страд|открытый=A =твор,мн,полн}носами{нос=S,муж,неод =твор,мн}или{или=PART=|или=CONJ=}за дниками Что надо сделать: как-то автоматически морфоразметить корпус и сделать так, чтобы можно было искать тексты по ключевым словам, по источнику, а слова вместе с контекстом - по грамматическим формам (например, человеку нужны все неодушевлённые существительные в творительном падеже – он бы галочки поставил и ему бы выдались) и т.д. Есть какие-нибудь проги для создания размеченных корпусов? Как вообще решаются такие задачи? Последний раз редактировалось Dilong-paradoxus; 17.04.2012 в 17:41. |
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Хочу создать сам сайт. Скажите с чего начать,что скачать,чем пользоваться? Если незнаю язык хтмл? | Андрей956 | Общие вопросы C/C++ | 5 | 17.06.2011 01:29 |
Как зарегистрироваться на turbofilm.ru , если есть инвайт ? | spamer | Свободное общение | 0 | 02.01.2010 00:38 |
Посоветуйте выбрать корпус Bigtower. | cybermax | Компьютерное железо | 4 | 01.11.2009 17:52 |
Какой у вас корпус системного блока? | Sk!f | Компьютерное железо | 20 | 08.06.2009 01:06 |
Как создать xml документ? | Longedok | Помощь студентам | 0 | 04.08.2008 16:48 |