Как перевести html сайт на CMS?
В данном посте речь пойдет о том, как перевести сайт состоящий исключительно только из HTML страничек на полноценную CMS с базой данных. При этом суть задачи перенести все тексты в базу, а это заголовок Title статьи, h1 заголовок, мета теги(ключевые слова и описание), сам текст статьи, дата публикации статьи, изображение встречающиеся в статье и возможно еще какие-либо данные. И вроде-бы решение данной задачи крайне простое, достаточно просто установить подходящую CMS, а затем ручками перепечатать(скопировать) статьи в базу данных сайта.
А именно выполнить следующие действия: скопировать заголовок в html документе и вставить его в форму добавление записи в CMS, потом таким же образом скопировать мета теги, текст статьи, настроить дату(указав дату публикации задним числом, когда была опубликована оригинальная статья на html страничке), перенести изображения в другую директорию и вставить в текст статьи, в то место где оно должно быть, затем сохранить запись и перейти к следующей.
Но! Что делать если таких статей несколько десятков, сотен или даже тысяч?
Как видно из выше описанной схемы ручного переноса, данный процесс крайне затратен по времени, утомителен и практически не реален для нормального человека. Мало кто сможет сидеть несколько суток подряд и вручную переносить пару тысяч статей из html документов в базу данных CMS.
Вариант решения данной задачи
Прежде хочу оговорится, возможно этот вариант уже описывался где-то ранее, или существуют более оптимальные и удобные способы для решения поставленной задачи, мне они увы на глаза не попадались, по этому я поступил по своему и пришел к собственному решению(может это и велосипед, но крайне эффективный).
Для решения поставленной задачи, я на конкретном примере, сайте пациенте, опробовал свой PHP скрипт, предназначенный конвертировать все HTML странички сайта в записи БД, для нужной мне CMS.
Принцип работы скрипта следующий:
— Скрипт проходит все папки сайта с html страничками, анализирует все html странички, создает массив URL адресов которые нужно будет обработать далее.
— Затем циклически проходит по всем адресам, обходя все странички, собирает с них все нужные нам данные: заголовки, мета теги, текст статьи, дату(если дата не указана), то она может браться из данных о html файле(время создания файла), ЧПУ, собирает прочую информацию.
— И как результат скрипт записывает в БД собранные данные, формируя при этом правильно оформленную статью под действующую CMS
— При этом скрипт может добавлять еще некоторые данные к записи которых не было ранее в html версии сайта, это например: автор статьи, пользователь от имени которого опубликована статья, права доступа, ЧПУ и т.д.
— Работа с изображениями. Скачивание изображений и сохранение их в новую папку, предварительно сортируя по указанным параметрам, вставка новых путей к ним в текст статьи.
— Немаловажной функцией можно назвать возможность изменения и фильтрации получаемого текста/данных при парсинге от нежелательных html тегов, символов или некого мусора. Возможность вырезания из получаемого материала неугодных данных и многое другое.
Скрипт можно назвать умным парсером контента, с последующей обработкой, подготовкой и записью данных в БД.
Данная методика была опробована мною на нескольких html сайтах состоящих из нескольких сотен страниц до нескольких тысяч. Причем в процессе работы попадались HTML страницы с разным оформлением, стилями и дизайном в целом. Но благодаря работе скрипта через PHP xPath разбор DOM дерева, серьезной перенастройки парсинга данных не требовалось.
Заметка. Для достижения наилучшего результата конвертирования html сайта в сайт работающий на CMS, рекомендуется вести сбор данных не в автоматическом режиме, а полуавтоматическом, это когда всю основную работу делает скрипт, но при этом вы просматриваете собранные им данные перед моментом записи данных в базу данных. С целью дополнительной модерации и выявления возможных ошибок при сборе данных с html страничек, а также возможной потребности в дополнительном форматировании и оформлении статьи.
Теперь о недостатках (если это можно назвать так)
Данный скрипт я не выкладываю в публичный доступ для скачивания и дальнейшей работы с ним. Дело в том, что работает этот скрипт индивидуально с каждым html сайтом, т.е. перед началом его работы требуется произвести настройки: xpath для сбора данных из DOM дерева, каталоги которые требуется обойти, работу с ЧПУ, работу с картинками и прочее. Получается, что работать с ним может только специалист понимающий ряд тонкостей в парсинге. А также понимающий структуру БД конечно CMS (таблиц и полей в БД).
Если у вас есть потребность в решении данной задачи, то вы можете обратиться ко мне, за умеренную плату(относительно всем прочим вариантам) я произведу для вас данные работы по переносу контента на CMS.
Похожие записи
Оставить комментарий
Full Stack
Senior, Architect
предложить оффер
- jQuery: как получить значение атрибута?
- PHP работа с изображением, класс SimpleImage
- Интеграция с API ОСАГО сайта sravni.ru
- Комментарии на PHP, Ajax, mySQL
- PHP: Категории бесконечного уровня вложенности.
- Nginx редирект на другой сервис с сохранением URL спросил (а) Сергей
- Исполнитель пропал, почему такое случается и понять с кем работать? спросил (а) Артем
- Можно ли WordPress считать универсальным движком? спросил (а) Андрей
- Что такое самописный скрипт или CMS? спросил (а) Антон
- Как при поиске в linux используя grep, добавить исключения? спросил (а) Алексей
- Консольный скрипт(JavaScript) для автоматических заказов на OZON к записи
- Консольный скрипт(JavaScript) для автоматических заказов на OZON к записи
- Как создать Telegram-бота с авторизацией через сайт к записи
- PHP скрипт: каталог закладок на сайты к записи
- Валидация на PHP к записи
- Сколько зарабатывают в бизнесе на совместных покупках к записи
- Сколько зарабатывают в бизнесе на совместных покупках к записи
Archive
- +2024 (29)
- Декабрь 2024 (1)
- Ноябрь 2024 (13)
- Октябрь 2024 (8)
- Сентябрь 2024 (1)
- Август 2024 (5)
- Май 2024 (1)
- +2023 (27)
- Ноябрь 2023 (1)
- Октябрь 2023 (13)
- Сентябрь 2023 (10)
- Апрель 2023 (1)
- Март 2023 (1)
- Февраль 2023 (1)
- +2022 (21)
- Декабрь 2022 (11)
- Ноябрь 2022 (1)
- Май 2022 (2)
- Апрель 2022 (2)
- Март 2022 (3)
- Февраль 2022 (1)
- Январь 2022 (1)
- +2021 (17)
- Декабрь 2021 (5)
- Ноябрь 2021 (2)
- Июль 2021 (1)
- Июнь 2021 (2)
- Май 2021 (5)
- Апрель 2021 (1)
- Март 2021 (1)
- +2020 (20)
- Декабрь 2020 (6)
- Сентябрь 2020 (2)
- Август 2020 (1)
- Июль 2020 (2)
- Май 2020 (2)
- Апрель 2020 (2)
- Март 2020 (2)
- Февраль 2020 (1)
- Январь 2020 (2)
- +2019 (18)
- Декабрь 2019 (3)
- Ноябрь 2019 (2)
- Октябрь 2019 (2)
- Сентябрь 2019 (1)
- Август 2019 (2)
- Июль 2019 (1)
- Июнь 2019 (1)
- Апрель 2019 (2)
- Март 2019 (1)
- Февраль 2019 (3)
- +2018 (44)
- Декабрь 2018 (4)
- Ноябрь 2018 (7)
- Октябрь 2018 (8)
- Сентябрь 2018 (1)
- Август 2018 (4)
- Июль 2018 (5)
- Май 2018 (3)
- Апрель 2018 (7)
- Март 2018 (1)
- Февраль 2018 (2)
- Январь 2018 (2)
- +2017 (19)
- Декабрь 2017 (2)
- Ноябрь 2017 (1)
- Октябрь 2017 (1)
- Сентябрь 2017 (2)
- Июль 2017 (1)
- Июнь 2017 (1)
- Май 2017 (2)
- Апрель 2017 (3)
- Март 2017 (2)
- Февраль 2017 (1)
- Январь 2017 (3)
- +2016 (36)
- Декабрь 2016 (3)
- Ноябрь 2016 (3)
- Октябрь 2016 (2)
- Сентябрь 2016 (3)
- Август 2016 (7)
- Июнь 2016 (3)
- Май 2016 (3)
- Апрель 2016 (3)
- Февраль 2016 (1)
- Январь 2016 (8)
- +2015 (36)
- Ноябрь 2015 (5)
- Октябрь 2015 (4)
- Сентябрь 2015 (1)
- Август 2015 (8)
- Июнь 2015 (1)
- Май 2015 (4)
- Апрель 2015 (8)
- Март 2015 (3)
- Февраль 2015 (2)
- +2014 (26)
- Ноябрь 2014 (2)
- Октябрь 2014 (5)
- Сентябрь 2014 (6)
- Июль 2014 (1)
- Июнь 2014 (2)
- Май 2014 (3)
- Апрель 2014 (6)
- Февраль 2014 (1)
- +2013 (27)
- Декабрь 2013 (2)
- Ноябрь 2013 (1)
- Октябрь 2013 (1)
- Август 2013 (1)
- Июль 2013 (3)
- Июнь 2013 (10)
- Май 2013 (1)
- Апрель 2013 (2)
- Февраль 2013 (3)
- Январь 2013 (3)
- +2012 (41)
- Декабрь 2012 (2)
- Ноябрь 2012 (3)
- Октябрь 2012 (7)
- Сентябрь 2012 (2)
- Август 2012 (1)
- Июль 2012 (3)
- Июнь 2012 (2)
- Май 2012 (6)
- Апрель 2012 (2)
- Март 2012 (7)
- Февраль 2012 (5)
- Январь 2012 (1)
- +2011 (57)
- Декабрь 2011 (6)
- Ноябрь 2011 (2)
- Октябрь 2011 (3)
- Сентябрь 2011 (5)
- Август 2011 (4)
- Июль 2011 (3)
- Июнь 2011 (3)
- Май 2011 (3)
- Апрель 2011 (4)
- Март 2011 (10)
- Февраль 2011 (5)
- Январь 2011 (9)
- +2010 (43)
- Декабрь 2010 (7)
- Ноябрь 2010 (21)
- Октябрь 2010 (14)
- Сентябрь 2010 (1)
Свежие записи
- Прокси веб-сервера Apache и nGinx 03.12.2024
- Настройка WebSocket на сайте для быстрого обмена данными 30.11.2024
- Подключение сайта к доставке DPD по API 28.11.2024
- Бот для автоматических заказов на Wildberries 22.11.2024
- Интеграция платежной системы MoonPay на сайт по API 10.11.2024