Скрипт парсинга форума

Author Роман Чернышов    Category PHP     Tags , Комментариев 0 Дата 31 Июл

parserforum Скрипт парсинга форумаДоброго времени! Предстояла интересная задача, написать скрипт парсинга форума, а именно парсинга тем, сообщений, ников пользователей, времени и даты сообщения, по возможности подписи в сообщении и аватарку если есть. Скрипт получался многоуровневый и представлял собою небольшую систему, так, что теперь я его называю система парсинга форумов;)

Принцип работы не сложен, разделяется на следующие этапы:
— Обход форума на поиск разделов
— Обход разделов на поиск в них форумов
— Обход форумов и сбор сообщений в них(со всеми прочими данными)
— Запись полученных данных в БД
— Последующая публикация разделов, форумов и сообщений в новый форум.

При обучении парсера важную роль играет шаблон HTML форум, т.к. парсер работает по принципу сбора информации из полученного DOM дерева HTML страницы. По этой причине парсинг каждого форума уникален, требуется настройка Xpath запросов, возможно корректировка из-за ЧПУ форума, а также применение Regexp в тех случаях когда xpath не может добраться до того или иного элемента ввиду некорректности Dom дерева(по причине кривой верстки например).
При работе используются PHP библиотеки domDocument, XPath, Curl — думаю их назначение всем понятно.

В общем задача оказалась весьма не простой и интересной, в интернетах много встречал информации о подобного рода парсерах(грабберах), но живых примеров в руки не попадалось.

Если вам требуется подобное решение то пишите через форму обратной связи (контакты).

Оставить комментарий

О блоге и авторе

Добро пожаловать на блог веб-разработчика! На протяжении многих лет, начиная с 2009 года, я занимаюсь созданием специализированных сайтов, сервисов и крупных веб-порталов. Мною было создано несколько сотен сайтов, большинство из которых работают на ПО созданном под заказ, а также на готовом ПО которое я разрабатываю на протяжении всего периода моей деятельности. Это: CMS "Совместные покупки", CMS "osRealty", CMS "Спорт прогнозы" и многое другое.

На страницах моего блога вы найдете множество информации о программировании, о появлении новых разработок, сможете ознакомиться с товарами и услугами которые я предоставляю. А также сможете получить консультацию, заказать разработку сайта или приобрести готовое решение, для реализации собственного проекта.

Поиск по блогу
Категории
Архив
Новое на сайте
Блогеры пишут
  • Роман Чернышов: Для работы капчи на PHP 5.6, замените в файле class.captcha.php строку 264 $ifunc( $this -> i [...]
  • Роман Чернышов: Схема такая: 1) На сайте есть виртуальные кошельки (далее ВК) 2) При пополнении пользователем ВК, [...]
  • Александр: Может скрипт комментариев блокирует сообщения с кодом? Или как длинный текст не проходит?
  • Александр: Пытаюсь в который раз здесь показать код, но страница обновляется, и не сообщения, ни любого оповеще [...]
  • Роман Чернышов: Лично у меня интерес к продаже ссылок пропал уже давно. Преимущество сапы, это то - что ссылки можно [...]
Портфолио Все работы


www.detskiy-mir.net
www.detskydoctor.ru
www.betelit.ru
www.all-alliance.ru
www.videogonok.ru
www.carpfishing.by
www.property-greek.com
www.domcons.ru

с 2009 года по сегодняшний день, создано более 300 сайтов...