|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
17.12.2016, 19:40 | #1 |
Пользователь
Регистрация: 13.07.2014
Сообщений: 46
|
Статистика в текста
Есть программа первого закона Ципфа.
Измерим количество вхождений каждого слова в текст и возьмем только одно значение из каждой группы, имеющей одинаковую частоту. Расположим частоты по мере их убывания и пронумеруем, порядковый номер частоты назовем рангом частоты Выделение ключевых слов в текстовых документах ранг слова Выделение ключевых слов в текстовых документах). Наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними – 2 и так далее. Ето первый закон. 1305954679_8.jpg [PYTHON] #!/usr/bin/env python # -*- coding: utf-8 -*- import re import sys from collections import Counter import numpy as np import matplotlib.pyplot as plt FILENAME = sys.argv[1][0:sys.argv[1].find('.')] WORDS = [] with open(sys.argv[1], 'rb') as textFile: WORDS = (re.findall(re.compile(r'\w+'), (textFile.read()).lower())) LABELS, VALUES = zip(*list(reversed(sorted(Counter(W ORDS).items(), key=lambda x: x[1])))) INDEXES = np.arange(len(LABELS)) plt.plot(INDEXES, VALUES) plt.xlim(-(len(LABELS))*5/100) plt.ylim(-(max(VALUES)*5)/100) plt.xlabel('Rank') plt.ylabel('Frequency') plt.grid() plt.savefig('figures/' + FILENAME + '_zipfs', dpi=500) [PYTHON] Нужно дописать второй закон: Первый закон не учитывает факт того, что разные слова могут входить в текст с одинаковой частотой. Ципф установил, что частота и количество слов, входящих в текст с этой частотой, также имеют зависимость. Если построить график, отложив по оси абсцисс частоту вхождения слова, а по оси ординат – количество слов в данной частоте, то получившаяся кривая будет сохранять свой вид для всех без исключения текстов. 1305954680_9.jpg Последний раз редактировалось Anriuser; 17.12.2016 в 19:42. |
18.12.2016, 00:12 | #2 |
Пользователь
Регистрация: 13.07.2014
Сообщений: 46
|
хепл ато мне жопа будет извините за слово
|
18.12.2016, 01:53 | #3 |
Пользователь
Регистрация: 13.07.2014
Сообщений: 46
|
может у кого готвое есть на любом языке?
|
18.12.2016, 14:18 | #4 |
Пользователь
Регистрация: 13.07.2014
Сообщений: 46
|
hekp
|
18.12.2016, 18:53 | #5 |
Пользователь
Регистрация: 13.07.2014
Сообщений: 46
|
апну
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Статистика | Апрель6 | Помощь студентам | 6 | 24.12.2013 20:58 |
Статистика | Кристинка89 | Общие вопросы Delphi | 11 | 26.04.2012 02:11 |
Статистика | M17 | Microsoft Office Excel | 4 | 10.04.2009 16:39 |
Статистика | Oldgy | Общие вопросы C/C++ | 3 | 18.01.2009 17:33 |