Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > IT форум > Помощь студентам
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 08.03.2012, 15:23   #1
Angriff
Пользователь
 
Регистрация: 28.02.2010
Сообщений: 14
Вопрос Удаление знаков препинания из текстов. С++

Доброго времени суток
У меня следующая проблема. Имеется текстовые файлы. Нужно составить по ним словарь. Текст уже лемматизирован (слова приведены в начальную форму). Перед проходом по текстам и составлением словаря осталось только удалить знаки препинания и всякий мусор вроде чисел, решеток #, скобок, тире и тд и тп. Как это можно сделать качественно и быстро? подскажите как эти символы можно идентифицировать? Кодировка текста utf8. Да, и еще небольшое дополнение. Текстов очень много (7000)

Заранее спасибо за помощь
Angriff вне форума Ответить с цитированием
Старый 08.03.2012, 15:35   #2
VIK_aka_TOR
Участник клуба
 
Аватар для VIK_aka_TOR
 
Регистрация: 30.01.2011
Сообщений: 1,578
По умолчанию

тут принцип удаления... и тут есть... а по поводу того что текстов много... я так понимаю файлики....
то легче всего это просканить названия этих файлов и загнать в массив... и применить вышеуказанные приемы удаления знаков... загнав это все в цикл... и на каждом ходе цикла будет юзаться 1 файлик из массива названия файлов...
пишу код не только за печеньки
VIK_aka_TOR вне форума Ответить с цитированием
Старый 08.03.2012, 15:49   #3
Angriff
Пользователь
 
Регистрация: 28.02.2010
Сообщений: 14
По умолчанию

Спасибо, идею понял... в принципе не плохо. Но бывают ситуации, когда встречаются слова типа "1)слон". Было бы не плохо 1) тоже выбросить. В принципе делается тоже как то в этом стиле)))
Angriff вне форума Ответить с цитированием
Старый 08.03.2012, 15:52   #4
VIK_aka_TOR
Участник клуба
 
Аватар для VIK_aka_TOR
 
Регистрация: 30.01.2011
Сообщений: 1,578
По умолчанию

что, где и откуда выбросить это у же вам решать... а приемы реализации вам даны...) при просмотре данных тем... так же и своей... внизу приведены похожие темы... + при вопросах касающихся кода... при его оформлении используйте #... )... удачи...
пишу код не только за печеньки
VIK_aka_TOR вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Посчитать кол-во знаков препинания в тексте. Dane4ka Помощь студентам 10 08.05.2011 20:50
Удаление знаков boomeer Общие вопросы C/C++ 4 04.08.2010 22:04
последовательность знаков препинания Владимир_король Помощь студентам 3 29.04.2010 10:56
Удаление текстов ссылок PeterMinin Microsoft Office Word 11 22.10.2009 12:45
Программа удаления знаков препинания... hen Общие вопросы C/C++ 17 11.10.2009 16:57