Парсер для сайта на движке Bitrix(с модулем iBlock)
CMS Bitrix, она же «1С-Битрикс: Управление сайтом» особо в представлении не нуждается, без преувеличения на сегодняшний день, это одна из самых популярных коммерческих CMS в российском сегменте интернета для управления контентом сайта. Сегодня я хочу рассказать о скрипте-парсере, разработкой которого я занимался в последнее время, предназначенного для сбора данных со сторонних источников и публикации их на сайт под управлением CMS Bitrix, в частности в модуль Информационные блоки(iBlock). Пару слов о модуле iBlock — это мощный и гибкий механизм для хранения и выборки информации различными способами, применяется для расширения стандартного функционала CMS Bitrix.
О парсере
Ранее я уже рассказывал о парсере для XenForo, данный же парсер для Bitrix построен на том же движке, и в своей основе имеет схожий алгоритм и принцип работы. Парсер состоит из двух частей: серверная часть — написанная на PHP, и клиентская часть — написанная на JavaScript, которая работает на стороне браузера через UserScript(дополнение Violentmonkey для Chrome) или же по средствам «безголового» браузера по типу PhantomJS. Такая реализация позволяет с легкостью имитировать действия реального пользователя, обходить защиту от ботов, в том числе некоторые версии Google reCapcha и защиту от DDOS которую предоставляют такие сервисы как Cloudflare(например) — разумеется исключительно для легального доступа к контенту, без нарушения каких либо законодательных норм.
Данное решение, мною уже протестировано в десятках проектов, гибкость и простата настройки позволяет получать данные любого типа, также парсер можно легко адаптировать под любую структуру контента сайта донора: форум, каталог товаров, информационный портал, статистика или справочная информация, также получаемый тип контента может быть любым: текст, фото, аудио, видео и т.д.
Логика работы парсера
Под логикой работы я подразумеваю порядок сбора информации, а также очередность обхода разделов и страниц сайта. В зависимости от типа сайта(форум, каталог, интернет магазин, информационный портал и т.д.), логика работы парсера может отличаться.
- Первичная настройка парсера на сайт донора, с указанием где и какие данные ему собирать, обучить «пониманию» структуры HTML страниц донора (задача не сложная, например прописать путь в xPath или с использованием селекторов jQuery до заголовка страницы H1);
- Обход первичной страницы сайта — каталога, сбор ссылок на товары или объявления;
- Обход страниц с товарами или объявлениями, сбор всех необходимых данных;
- В случае постраничной разбивки в каталоге товаров или объявлений, обход всех страниц;
- Обход профилей компаний опубликовавших объявления, если таковые есть;
Сохраняем данные в базу данных Bitrix
Все данные полученные парсером сохраняются в базу данных, а именно в модуль iBlock — Информационные блоки (в таблицы данного модуля), но при необходимости парсер можно настроить и на работу с другими модулями CMS. Далее я расскажу какие таблицы модуля iBlock задействуются.
Cохраняем объявления(запись в iBlock)
Таблица: b_iblock_element
Запрос:
INSERT INTO `b_iblock_element` (`ID`, `TIMESTAMP_X`, `MODIFIED_BY`, `DATE_CREATE`, `CREATED_BY`, `IBLOCK_ID`, `IBLOCK_SECTION_ID`, `ACTIVE`, `ACTIVE_FROM`, `ACTIVE_TO`, `SORT`, `NAME`, `PREVIEW_PICTURE`, `PREVIEW_TEXT`, `PREVIEW_TEXT_TYPE`, `DETAIL_PICTURE`, `DETAIL_TEXT`, `DETAIL_TEXT_TYPE`, `SEARCHABLE_CONTENT`, `WF_STATUS_ID`, `WF_PARENT_ELEMENT_ID`, `WF_NEW`, `WF_LOCKED_BY`, `WF_DATE_LOCK`, `WF_COMMENTS`, `IN_SECTIONS`, `XML_ID`, `CODE`, `TAGS`, `TMP_ID`, `WF_LAST_HISTORY_ID`, `SHOW_COUNTER`, `SHOW_COUNTER_START`) VALUES ('', '{$date}', 2, '$date', 2, 2, {$SectionID}, 'Y', NULL, NULL, 500, '{$title}', NULL, NULL, 'text', NULL, '{$description}', 'html', '{$content}', 1, NULL, NULL, NULL, NULL, NULL, 'Y', '0', NULL, NULL, '0', NULL, 2, '{$date}'); |
В данном запросе стоит обратить внимания на значения полей, в которых представлены следующие переменные:
$date — дата в формате Unix Timestamp;
$SectionID — ID раздела/секции модуля iBlock к которому будет относится данная запись;
$title — Заголовок записи;
$description — Краткое описание;
$content — Полный текст записи.
Cохраняем свойства(статичные) к записи
Таблица: b_iblock_element_iprop
Запрос:
INSERT INTO `b_iblock_element_iprop` (`IBLOCK_ID`, `SECTION_ID`, `ELEMENT_ID`, `IPROP_ID`, `VALUE`) VALUES ({$IBLOCK_ID}, {$SectionID}, {$lastID}, {$IPROP_ID}, '{$content}');"; |
В данном запросе стоит обратить внимания на значения полей, в которых представлены следующие переменные:
$IBLOCK_ID — ID типа контента созданного информационного блока в рамках модуля iBlock, как правило значение одинаково для всех записей;
$SectionID — ID раздела/секции модуля iBlock к которому будет относится данная запись;
$lastID — ID записи к которой относится данное дополнительное свойство;
$IPROP_ID — ID свойства;
$content — Значение свойства.
Cохраняем дополнительные(настраиваемые) свойства к записи
Таблица: b_iblock_element_iprop
Запрос:
INSERT INTO `b_iblock_element_property` (`IBLOCK_PROPERTY_ID`, `IBLOCK_ELEMENT_ID`, `VALUE`, `VALUE_TYPE`, `VALUE_ENUM`, `VALUE_NUM`, `DESCRIPTION`) VALUES ({$IBLOCK_PROPERTY_ID}, {$lastID}, '{$name}', 'text', NULL, {$value}, {$description}); |
В данном запросе стоит обратить внимания на значения полей, в которых представлены следующие переменные:
$IBLOCK_PROPERTY_ID — ID типа дополнительного свойства;
$lastID — ID записи к которой относится данное дополнительное свойство;
$name — Название свойства;
$value — Значение свойства;
$description — Описание свойства.
Технические характеристики
Парсер состоит из двух частей, серверная часть на PHP 7 которая отдает команды и клиентская часть на JavaScript, которая получает команды, обходит страницы сайта и собирает нужные данные. Для работы клиентской части используется UserScript(дополнение Violentmonkey для Chrome) или же PhantomJS. Со страницами парсер работает по средствам CSS селекторов jQuery или xPatch. Клиентская и серверная часть общаются между собой используя Ajax запросы по протоколу HTTPS, данные передаются в формате Json.
Заключение
Как я ранее уже не раз говорил, все мои парсеры построены на одной платформе и основным их преимуществом является то, что их можно настраивать под парсинг из любых источников и на загрузку данных в любые проекты, будь то Bitrix, WordPress, joomla, XenForo или самописный движок. Если у вас есть потребность в парсинге данных — обращайтесь, буду раз поработать с вами!
Похожие записи
Оставить комментарий
Full Stack
Senior, Architect
предложить оффер
- jQuery: как получить значение атрибута?
- PHP работа с изображением, класс SimpleImage
- Интеграция с API ОСАГО сайта sravni.ru
- Комментарии на PHP, Ajax, mySQL
- PHP: Категории бесконечного уровня вложенности.
- Nginx редирект на другой сервис с сохранением URL спросил (а) Сергей
- Исполнитель пропал, почему такое случается и понять с кем работать? спросил (а) Артем
- Можно ли WordPress считать универсальным движком? спросил (а) Андрей
- Что такое самописный скрипт или CMS? спросил (а) Антон
- Как при поиске в linux используя grep, добавить исключения? спросил (а) Алексей
- Обзор Insurance CMS — платформы для сайтов по страхованию к записи
- Консольный скрипт(JavaScript) для автоматических заказов на OZON к записи
- Консольный скрипт(JavaScript) для автоматических заказов на OZON к записи
- Как создать Telegram-бота с авторизацией через сайт к записи
- PHP скрипт: каталог закладок на сайты к записи
- Валидация на PHP к записи
- Сколько зарабатывают в бизнесе на совместных покупках к записи
Archive
- +2025 (3)
- Январь 2025 (3)
- +2024 (35)
- Декабрь 2024 (7)
- Ноябрь 2024 (13)
- Октябрь 2024 (8)
- Сентябрь 2024 (1)
- Август 2024 (5)
- Май 2024 (1)
- +2023 (27)
- Ноябрь 2023 (1)
- Октябрь 2023 (13)
- Сентябрь 2023 (10)
- Апрель 2023 (1)
- Март 2023 (1)
- Февраль 2023 (1)
- +2022 (21)
- Декабрь 2022 (11)
- Ноябрь 2022 (1)
- Май 2022 (2)
- Апрель 2022 (2)
- Март 2022 (3)
- Февраль 2022 (1)
- Январь 2022 (1)
- +2021 (17)
- Декабрь 2021 (5)
- Ноябрь 2021 (2)
- Июль 2021 (1)
- Июнь 2021 (2)
- Май 2021 (5)
- Апрель 2021 (1)
- Март 2021 (1)
- +2020 (20)
- Декабрь 2020 (6)
- Сентябрь 2020 (2)
- Август 2020 (1)
- Июль 2020 (2)
- Май 2020 (2)
- Апрель 2020 (2)
- Март 2020 (2)
- Февраль 2020 (1)
- Январь 2020 (2)
- +2019 (18)
- Декабрь 2019 (3)
- Ноябрь 2019 (2)
- Октябрь 2019 (2)
- Сентябрь 2019 (1)
- Август 2019 (2)
- Июль 2019 (1)
- Июнь 2019 (1)
- Апрель 2019 (2)
- Март 2019 (1)
- Февраль 2019 (3)
- +2018 (44)
- Декабрь 2018 (4)
- Ноябрь 2018 (7)
- Октябрь 2018 (8)
- Сентябрь 2018 (1)
- Август 2018 (4)
- Июль 2018 (5)
- Май 2018 (3)
- Апрель 2018 (7)
- Март 2018 (1)
- Февраль 2018 (2)
- Январь 2018 (2)
- +2017 (19)
- Декабрь 2017 (2)
- Ноябрь 2017 (1)
- Октябрь 2017 (1)
- Сентябрь 2017 (2)
- Июль 2017 (1)
- Июнь 2017 (1)
- Май 2017 (2)
- Апрель 2017 (3)
- Март 2017 (2)
- Февраль 2017 (1)
- Январь 2017 (3)
- +2016 (36)
- Декабрь 2016 (3)
- Ноябрь 2016 (3)
- Октябрь 2016 (2)
- Сентябрь 2016 (3)
- Август 2016 (7)
- Июнь 2016 (3)
- Май 2016 (3)
- Апрель 2016 (3)
- Февраль 2016 (1)
- Январь 2016 (8)
- +2015 (36)
- Ноябрь 2015 (5)
- Октябрь 2015 (4)
- Сентябрь 2015 (1)
- Август 2015 (8)
- Июнь 2015 (1)
- Май 2015 (4)
- Апрель 2015 (8)
- Март 2015 (3)
- Февраль 2015 (2)
- +2014 (26)
- Ноябрь 2014 (2)
- Октябрь 2014 (5)
- Сентябрь 2014 (6)
- Июль 2014 (1)
- Июнь 2014 (2)
- Май 2014 (3)
- Апрель 2014 (6)
- Февраль 2014 (1)
- +2013 (27)
- Декабрь 2013 (2)
- Ноябрь 2013 (1)
- Октябрь 2013 (1)
- Август 2013 (1)
- Июль 2013 (3)
- Июнь 2013 (10)
- Май 2013 (1)
- Апрель 2013 (2)
- Февраль 2013 (3)
- Январь 2013 (3)
- +2012 (41)
- Декабрь 2012 (2)
- Ноябрь 2012 (3)
- Октябрь 2012 (7)
- Сентябрь 2012 (2)
- Август 2012 (1)
- Июль 2012 (3)
- Июнь 2012 (2)
- Май 2012 (6)
- Апрель 2012 (2)
- Март 2012 (7)
- Февраль 2012 (5)
- Январь 2012 (1)
- +2011 (57)
- Декабрь 2011 (6)
- Ноябрь 2011 (2)
- Октябрь 2011 (3)
- Сентябрь 2011 (5)
- Август 2011 (4)
- Июль 2011 (3)
- Июнь 2011 (3)
- Май 2011 (3)
- Апрель 2011 (4)
- Март 2011 (10)
- Февраль 2011 (5)
- Январь 2011 (9)
- +2010 (43)
- Декабрь 2010 (7)
- Ноябрь 2010 (21)
- Октябрь 2010 (14)
- Сентябрь 2010 (1)
Свежие записи
- Плагин WordPress для настройки robots.txt 13.01.2025
- Скрипт проверки товара на оригинал (для WordPress и прочих) 08.01.2025
- Флаги Apache при переадресации RewriteRule 02.01.2025
- Интеграция сайта(ресторана) с API сервиса Quick Resto 23.12.2024
- Шифрование в PHP и расшифровка в JavaScript по ключу 15.12.2024