Парсинг данных (форумы, каталоги, сайты)

Author Автор: Роман Чернышов    Опубликовано: 15 августа 2015

parserОчень часто возникает потребность в получении большого количества данных с какого-либо сайта, форума, каталога. В таком случае ручной метод сбора информации является очень сложным, в виду большего объема записей и информации содержащихся вних. Плюс все собранные данные требуется оформить соответствующим образом, разложить все значения по ячейкам, записи сформировать в таблицу, каталог. Также часто требуется связать получаемые данные с уже имеющимися таблицами, например: полученный список медицинский учреждений с базой городов и регионов. Все это, и даже больше, можно автоматизировать воспользовавшись услугой парсинга данных.

Для чего нужен парсинг данных?
— Вы хотите составить собственную базу данных, включающую в себя редкую и ценную информацию;
— Вы хотите заполнить свой форум сообщениями и темами;
— Вы хотите заполнить свой сайт большим объемом контента (текст, фото);
— Вы хотите собрать базу сайтов, емаил адресов или телефонных номеров;
— Прочие цели.

Как происходит процесс парсинга данных?
Тщательно изучается донор, и формат данных которые будут парсится, устанавливаются взаимосвязи значений и полей, оценивается общий объем. Затем анализируется возможность парсинга, нет ли защиты от ботов, потребности в антикапче, потребности в регистрации на сайте для получения закрытой информации. По окончанию анализа, пишется программа парсер, которая будет работать в автоматическом режиме, с максимальной скоростью, столько времени сколько потребуется для получения всех записей с донора.

Что умеет программа парсер?
— Сбор всех текстовых данных, телефонных номеров и емаил адресов;
— Выкачивание картинок с сайта донора;
— Авторизация на сайте донора, для доступа к закрытым разделом от незарегистрированных пользователей;
— Работа с аккуратном режиме, с целью обхода блокировок со стороны донора;
— Работа через Proxy, Socks, с целью обхода блокировки по IP;
— Каталогизированние всех получаемых данных, выгрузка в Excel CSV, MySQL, Txt и т.д;
— Изменять получаемые данные, по заранее заданному шаблону. Например заменять одно имя на другое и т.д.

Что требуется для заказа написания парсера под ваши нужды?
— Информация о доноре, с которого будет вестись сбор данных;
— Оплата услуги (по договоренности, в зависимости от сложности).

Парсер будет работать на мощных серверах, предоставляемых мною, с максимально допустимой скоростью, без ограничений по трафику и нагрузок на ЦП.

— Примерная скорость парсинга форума, 300 000 сообщений и 20 000 тем, составляет сутки.
— По итогу окончания работы парсера, есть возможность обернуть базу данных в удобный скрипт каталог, со встроенной формой поиска, и постраничной разбивкой, с применением Ajax технологий.

Оставить комментарий

Автор блога
Роман Чернышов
Веб-разработчик,
Full Stack
Senior, Architect
PHP, JavaScript, Node.JS, Python, HTML 5, CSS 3, MySQL, Bash, Linux Admin
Заказать работу
предложить оффер

Моя книга
Книга. Веб-разработчик. Легкий вход в профессию
Печатная книга
Веб-разработчик.
Легкий вход в профессию
Оформить предзаказ
Последние вопросы
Список вопросов
Последние комментарии
Меню

Archive

Мои проекты
Insurance CMS Love Crm CMS Совместные покупки Мой PHP Framework Хостинг для моих клиентов Лицензии на мой софт и поддержка