Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Программная инженерия > Компьютерное железо
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 28.07.2016, 12:39   #11
ak167
Пользователь
 
Аватар для ak167
 
Регистрация: 24.01.2010
Сообщений: 92
По умолчанию

Цитата:
1. у вас калькулятор сломался, там 64. Только это максимум на вашем тарифе, помимо зугрузки данные надо обработать и прочее...
p51x, да, я в курсе, что данные должны обрабатываться. С расчётом действительно ошибка вышла. На самом деле 1,9 Тб в день + времяч на обработку + пинги и т.п., дай Бог дней за 10 обработает.

Цитата:
2. откуда цифры о 5-25 Тб? на глазок?
3. инет это статическая книга, зайдите на сайты новостей и посмотрите время добавления
и т.д.
p51x, нет. Нашёл инфу в интернет. В 2008 годы индекс всего рунета был 0,85 Тб, в 2012-2014 гг уже 2,8 Тб. Если подсчитать, учитывая скорость роста, то сейчас минимум 5 Тб. Сколько максимум я увы не знаю и вот тут уже на глазок я взял цифру в 25 Тб, чтоб с запасом.

Цитата:
3. инет это статическая книга, зайдите на сайты новостей и посмотрите время добавления
и т.д.
p51x, для сайтов новостей сделаю отдельного паука на отдельном сервере. Их ведь не так много. Сколько у нас в инете новостных порталов? Пока не считал, но думаю пару тысяч есть. Такое количество можно и каждый день индексировать хотя бы. Каждые 10 минут, как это делает Яндекс, пока увы не получится.
ak167 вне форума Ответить с цитированием
Старый 28.07.2016, 12:51   #12
p51x
Старожил
 
Регистрация: 15.02.2010
Сообщений: 15,695
По умолчанию

Давайте посмотрим на офф. цифры яндекса на 2013 год:
Паук рунет:
Качающие сервера: 300;
Нагрузка: 20 000 документов в секунду;
Трафик: 400 МБайт/с (3200 Мбит/с).

Робот (без серверов MapReduce) Российская база:
Кластер вычисления факторов: 650;
Варка поисковой базы: 169;
Тестовые сервера: 878;
Архив: 172.

В базе хранится около 25 миллиардов документов (214 ТБ), два раза в неделю она полностью пересчитывается.

И т.д. добавьте балансировщиков, кэширование, серверы для бд,...

И что сделает ваша одна машина раз в неделю? И как вы сможете ее раз в неделю запускать, если сами посчитали, что на один запуск дней 10 надо?
p51x на форуме Ответить с цитированием
Старый 28.07.2016, 13:12   #13
ak167
Пользователь
 
Аватар для ak167
 
Регистрация: 24.01.2010
Сообщений: 92
По умолчанию

Цитата:
Давайте посмотрим на офф. цифры яндекса на 2013 год:
Паук рунет:
Качающие сервера: 300;
Нагрузка: 20 000 документов в секунду;
Трафик: 400 МБайт/с (3200 Мбит/с).

Робот (без серверов MapReduce) Российская база:
Кластер вычисления факторов: 650;
Варка поисковой базы: 169;
Тестовые сервера: 878;
Архив: 172.

И т.д. добавьте балансировщиков, кэширование, серверы для бд,...
p51x, ну это для обработки миллионов запросов в день. У меня столько не будет, по крайней мере в первые годы работы своего поисковика.

Цитата:
В базе хранится около 25 миллиардов документов (214 ТБ), два раза в неделю она полностью пересчитывается
p51x, это с учётом картинок и музыки. К тому же яндекс индексирует весь интернет, то есть сайты всех стран мира. Мой же будет первое время индексировать только рунет. А это в разы меньшие объёмы.

Цитата:
И что сделает ваша одна машина раз в неделю? И как вы сможете ее раз в неделю запускать, если сами посчитали, что на один запуск дней 10 надо?
p51x, ну сейчас то я уже понял, что раз в неделю не получиться. Будет каждые 10 дней индексировать. Один раз проиндексирует и сразу же по-новый пойдёт индексировать. Думаю придёться ставить две машины. Одну для паука, вторую для поиска по БД.
ak167 вне форума Ответить с цитированием
Старый 28.07.2016, 13:19   #14
TaLadno
Форумчанин
 
Регистрация: 03.06.2015
Сообщений: 393
По умолчанию

Может ты таки обратишь внимание на этот пост? http://programmersforum.ru/showpost....81&postcount=3
Особенно на первое предложение от p51x'a

Хотя забей на все сарказмы и вопросы, начинай уже выбирать остров, который купишь с мегадохода

P.S.: А название то хоть есть уже?
P.P.S.: кажись мы кормим тролля или дурака (что одно и то же)
Вы там держитесь.

Последний раз редактировалось TaLadno; 28.07.2016 в 13:25.
TaLadno вне форума Ответить с цитированием
Старый 28.07.2016, 13:19   #15
p51x
Старожил
 
Регистрация: 15.02.2010
Сообщений: 15,695
По умолчанию

Цитата:
ну это для обработки миллионов запросов в день. У меня столько не будет, по крайней мере в первые годы работы своего поисковика
Нет. Это паук и робот, на запросы они не отвечают. Прочитайте, что они делают.

Цитата:
это с учётом картинок и музыки
Пруф? Или вы думаете они слова из мп3 файла выковыривают?

Цитата:
К тому же яндекс индексирует весь интернет, то есть сайты всех стран мира. Мой же будет первое время индексировать только рунет. А это в разы меньшие объёмы.
Вы не заметили, я везде указал, что это для рунета. Могу привести общие цифры:
Паук Все вместе:
Качающие сервера: 700;
Нагрузка: 35 000 документов в секунду;
Трафик: 700 МБайт/с (5600 Мбит/с).

Робот
Кластер вычисления факторов: 650 + 301;
Варка поисковой базы: 169 + 120;
Тестовые сервера: 878 + ???;
Архив: 172 + 60.

Цитата:
Думаю придёться ставить две машины. Одну для паука, вторую для поиска по БД.
А робота куда? А пересоздание идекса БД? ...

Кстати, вы раньше не писали где-нибудь с подобной историей? А то она очень знакома...
p51x на форуме Ответить с цитированием
Старый 28.07.2016, 13:38   #16
Pavia
Лис
Старожил
 
Аватар для Pavia
 
Регистрация: 18.09.2015
Сообщений: 2,409
По умолчанию

Это не обработка запросов. А обход и разложение всех страниц по полочкам.
215 ТБ это без картинок и музаки- это индекс. Притом уже сжатий со степенью 30 % от интернета.
Паук может генериррвать в секунду 1 000-60 000 запросов. Ограничение сокетов.
Столькоже запросов может обработать один процессор.
Рунет 30 милионов доменов. На каждом 30-1000 страниц.
Так вот чтобы проиндексировать рунет вам потребуется 1-10 милион секунд. 8 тыс в сутках. Обход одного интернета у вас займёт 1 000 суток! 3 - года. У Яндекса качающих серверов 300 шт.
1000 суток/300 компов = 3,3 суток.
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
У дзен программиста программа делает то что он хотел, а не то что он написал .
Pavia вне форума Ответить с цитированием
Старый 28.07.2016, 14:04   #17
ak167
Пользователь
 
Аватар для ak167
 
Регистрация: 24.01.2010
Сообщений: 92
По умолчанию

Цитата:
Нет. Это паук и робот, на запросы они не отвечают. Прочитайте, что они делают.
p51x, действительно. Извиняюсь, не доглядел.

Цитата:
Пруф? Или вы думаете они слова из мп3 файла выковыривают?
Нет. Речь ведь идёт о всей базе Яндекса? Так в нём есть поиск по картинками, а значит превию каждой картинки нужно где-то хранить. Её либо в БД закачивают либо в папку на сервер. Так же у есть Яндекс-музыка, там сотни тысяч композиций (предположительно), они тоже хранятся на серверах. В моём будет просто поиск по тексту без всего этого, поэтому и данных хранится будет намного меньше.

Цитата:
А робота куда? А пересоздание идекса БД? ...
p51x, да, похоже придёться ещё и третий сервак делать, если два не будут справляться.

Цитата:
Кстати, вы раньше не писали где-нибудь с подобной историей? А то она очень знакома...
p51x, неа. Но в интернете полно подобных тем. Сам на них натыкался не раз.

Цитата:
Это не обработка запросов. А обход и разложение всех страниц по полочкам.
215 ТБ это без картинок и музаки- это индекс. Притом уже сжатий со степенью 30 % от интернета.
Паук может генериррвать в секунду 1 000-60 000 запросов. Ограничение сокетов.
Столькоже запросов может обработать один процессор.
Рунет 30 милионов доменов. На каждом 30-1000 страниц.
Так вот чтобы проиндексировать рунет вам потребуется 1-10 милион секунд. 8 тыс в сутках. Обход одного интернета у вас займёт 1 000 суток! 3 - года. У Яндекса качающих серверов 300 шт.
1000 суток/300 компов = 3,3 суток.
Цитата:
Вы не заметили, я везде указал, что это для рунета. Могу привести общие цифры:
Паук Все вместе:
Качающие сервера: 700;
Нагрузка: 35 000 документов в секунду;
Трафик: 700 МБайт/с (5600 Мбит/с).

Робот
Кластер вычисления факторов: 650 + 301;
Варка поисковой базы: 169 + 120;
Тестовые сервера: 878 + ???;
Архив: 172 + 60.
Pavia, p51x, мда... если это правда, то это печально. Я расчитывал на другие цифры.
ak167 вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
C# Разработка информационно-поисковой системы (windows forms) natali75675 Фриланс 7 11.04.2016 22:01
Написать движок поисковой системы SilverLord Фриланс 0 14.05.2012 18:12
Организация многопоточности сервера игры для соц. сети Willer55 Gamedev - cоздание игр: Unity, OpenGL, DirectX 1 07.12.2011 10:02
Создание поисковой системы L_Anya Помощь студентам 1 28.10.2011 23:18
Создание поисковой системы для программистов tarpedo Свободное общение 21 16.07.2009 16:22