Скрипт парсинга форума

Author Автор: Роман Чернышов    Опубликовано: 31 июля 2013

Доброго времени! Предстояла интересная задача, написать скрипт парсинга форума, а именно парсинга тем, сообщений, ников пользователей, времени и даты сообщения, по возможности подписи в сообщении и аватарку если есть. Скрипт получался многоуровневый и представлял собою небольшую систему, так, что теперь я его называю система парсинга форумов;)

Принцип работы не сложен, разделяется на следующие этапы:
— Обход форума на поиск разделов
— Обход разделов на поиск в них форумов
— Обход форумов и сбор сообщений в них(со всеми прочими данными)
— Запись полученных данных в БД
— Последующая публикация разделов, форумов и сообщений в новый форум.

При обучении парсера важную роль играет шаблон HTML форум, т.к. парсер работает по принципу сбора информации из полученного DOM дерева HTML страницы. По этой причине парсинг каждого форума уникален, требуется настройка Xpath запросов, возможно корректировка из-за ЧПУ форума, а также применение Regexp в тех случаях когда xpath не может добраться до того или иного элемента ввиду некорректности Dom дерева(по причине кривой верстки например).
При работе используются PHP библиотеки domDocument, XPath, Curl — думаю их назначение всем понятно.

В общем задача оказалась весьма не простой и интересной, в интернетах много встречал информации о подобного рода парсерах(грабберах), но живых примеров в руки не попадалось.

Если вам требуется подобное решение то пишите через форму обратной связи (контакты).

2 комментария to “Скрипт парсинга форума”

  • алексей 07.11.2022 в 2:30 пп

    Подскажите парсер из форума на ксенфоро такой у Вас есть? мне нужно на свой форум либо в формат csv xml

    • Роман Чернышов 20.02.2023 в 3:20 пп

      Доброго времени, да есть, обращайтесь!

Оставить комментарий

Автор блога
Роман Чернышов
Веб-разработчик,
Full Stack
Senior, Architect
PHP, JavaScript, Node.JS, Python, HTML 5, CSS 3, MySQL, Bash, Linux Admin
Заказать работу
предложить оффер

Моя книга
Книга. Веб-разработчик. Легкий вход в профессию
Печатная книга
Веб-разработчик.
Легкий вход в профессию
Оформить предзаказ
Последние вопросы
Список вопросов
Последние комментарии
Меню

Archive

Мои проекты
Insurance CMS Love Crm CMS Совместные покупки Мой PHP Framework Хостинг для моих клиентов Лицензии на мой софт и поддержка