Парсинг данных (форумы, каталоги, сайты)

Author Автор: Роман Чернышов    Опубликовано: 15 августа 2015

parserОчень часто возникает потребность в получении большого количества данных с какого-либо сайта, форума, каталога. В таком случае ручной метод сбора информации является очень сложным, в виду большего объема записей и информации содержащихся вних. Плюс все собранные данные требуется оформить соответствующим образом, разложить все значения по ячейкам, записи сформировать в таблицу, каталог. Также часто требуется связать получаемые данные с уже имеющимися таблицами, например: полученный список медицинский учреждений с базой городов и регионов. Все это, и даже больше, можно автоматизировать воспользовавшись услугой парсинга данных.

Для чего нужен парсинг данных?
— Вы хотите составить собственную базу данных, включающую в себя редкую и ценную информацию;
— Вы хотите заполнить свой форум сообщениями и темами;
— Вы хотите заполнить свой сайт большим объемом контента (текст, фото);
— Вы хотите собрать базу сайтов, емаил адресов или телефонных номеров;
— Прочие цели.

Как происходит процесс парсинга данных?
Тщательно изучается донор, и формат данных которые будут парсится, устанавливаются взаимосвязи значений и полей, оценивается общий объем. Затем анализируется возможность парсинга, нет ли защиты от ботов, потребности в антикапче, потребности в регистрации на сайте для получения закрытой информации. По окончанию анализа, пишется программа парсер, которая будет работать в автоматическом режиме, с максимальной скоростью, столько времени сколько потребуется для получения всех записей с донора.

Что умеет программа парсер?
— Сбор всех текстовых данных, телефонных номеров и емаил адресов;
— Выкачивание картинок с сайта донора;
— Авторизация на сайте донора, для доступа к закрытым разделом от незарегистрированных пользователей;
— Работа с аккуратном режиме, с целью обхода блокировок со стороны донора;
— Работа через Proxy, Socks, с целью обхода блокировки по IP;
— Каталогизированние всех получаемых данных, выгрузка в Excel CSV, MySQL, Txt и т.д;
— Изменять получаемые данные, по заранее заданному шаблону. Например заменять одно имя на другое и т.д.

Что требуется для заказа написания парсера под ваши нужды?
— Информация о доноре, с которого будет вестись сбор данных;
— Оплата услуги (по договоренности, в зависимости от сложности).

Парсер будет работать на мощных серверах, предоставляемых мною, с максимально допустимой скоростью, без ограничений по трафику и нагрузок на ЦП.

— Примерная скорость парсинга форума, 300 000 сообщений и 20 000 тем, составляет сутки.
— По итогу окончания работы парсера, есть возможность обернуть базу данных в удобный скрипт каталог, со встроенной формой поиска, и постраничной разбивкой, с применением Ajax технологий.

Оставить комментарий

Автор блога
Роман Чернышов
Веб-разработчик,
Full Stack
Senior, Architect
PHP, JavaScript, Node.JS, Python, HTML 5, CSS 3, MySQL, Bash, Linux Admin
Заказать работу
предложить оффер

Моя книга
Книга. Веб-разработчик. Легкий вход в профессию
Печатная книга
Веб-разработчик.
Легкий вход в профессию
Купить за 159₽
Последние вопросы
Список вопросов
Последние комментарии
Меню

Archive

Мои проекты
Insurance CMS Love Crm CMS Совместные покупки Мой PHP Framework Хостинг для моих клиентов Лицензии на мой софт и поддержка