Настраиваем NewsGrabber JC, HTML ленту новостей

Author Роман Чернышов    Category CMS, HTML     Tags , , , Комментариев 1 Дата 18 Мар

newsgarbber Настраиваем NewsGrabber JC, HTML ленту новостейПродолжение статьи по настройке NewsGrabber JC. Дополнение.
Первую основную часть вы можете прочитать тут: Интрукция по настройке NewsGrabber JC для Joomla

В качестве примера возьмем HTML ленту новостей с этого сайта — www.example.ru/poetry/34
При настройке ленты новостей для парсинга в режиме HTML мы проделываем все те же шаги, что и при настройке ленты RSS за исключением последнего десятого шага настройки, а именно настройка вкладки Обработчик.

И так во вкладке Обработчик необходимо выбрать режим работы парсера, т.е. как он будет обрабатывать ленту, как RSS поток или как HTML страницу. Для этого нужно выбрать вкладку HTML, Рис ниже:

img1.11 300x223 Настраиваем NewsGrabber JC, HTML ленту новостей

1.    Выбираем вкладку HTML и сохраняемся
2.    Прописываем маску отображения ссылок которые нужно искать на странице с анонсами новостей, т.е. на странице http://www.example.ru/poetry/34 имеются новости с линками http://www.example.ru/poetry/163605, но в в коде страницы они прописаны относительно /poetry/163605, и нам необходимо научить парсер собирать такие ссылки и переходить по ним, чтобы в дальнейшем спарсить полную новость. И так, задаем маску такого линка — \/poetry\/\d{6}+  в данном примере мы экранируем все слеши обратным слешем, так же экранируем спец. Символ:  d{6}+  , который обозначает что в ссылке могут стоять любые 6 цифр, и ничего кроме цифр и строго 6.. это делается для того, чтобы парсер не собирал вот такие линки http://www.example.ru/poetry/34/p2 или http://www.example.ru/poetry/34 ведущие не на полную новость а на другие страницы с анонсами.
3.    Можно не задовать поля 2 и 4, а задать только поле 3, в случае если все ссылки на полную новость имеют одинаковый вид, например кнопка «далее», просто указываем парсеру, что он должен переходить только по ссылкам анкор которых – «далее», для этого в поле 3 пишем этот анкор и все.
4.    Собственно префикс ссылки, дело в том как я и написал в пункте 2, ссылки имеют относительный вид  /poetry/163605, и чтобы парсер знал полный урл ссылки мы указываем ему адрес сайта http://www.example.ru
5.    Брать в качестве заголовка название ссылки или же нет, в случае если все ссылки по котором парсер попадает на страницу с полной новостью называются «далее» такой вариант некатит
6.    В ином случае нам нужно указать шаблон заголовка новости, в коде страницы с полной новостью донара мы видим, что заголовок прописан в тегах <h1></h1> соответственно шаблон будет выглядеть <h1[^>]*>.+?<\/h1>

Далее все по схеме с RSS лентами, задаем конечную, начальную точку, сохраняемся, тестируем.

Статья представлена в рамках ознакомления с работой парсера.

1 Comment to “Настраиваем NewsGrabber JC, HTML ленту новостей”

  • Александр 19.03.2011 в 3:49 пп

    Не мешает здесь указать ссылку на первую статью про RSS

Оставить комментарий

О блоге и авторе

Добро пожаловать на блог веб-разработчика! На протяжении многих лет, начиная с 2009 года, я занимаюсь созданием специализированных сайтов, сервисов и крупных веб-порталов. Мною было создано несколько сотен сайтов, большинство из которых работают на ПО созданном под заказ, а также на готовом ПО которое я разрабатываю на протяжении всего периода моей деятельности. Это: CMS "Совместные покупки", CMS "osRealty", CMS "Спорт прогнозы" и многое другое.

На страницах моего блога вы найдете множество информации о программировании, о появлении новых разработок, сможете ознакомиться с товарами и услугами которые я предоставляю. А также сможете получить консультацию, заказать разработку сайта или приобрести готовое решение, для реализации собственного проекта.

Поиск по блогу
Категории
Архив
Новое на сайте
Блогеры пишут
  • Роман Чернышов: Для работы капчи на PHP 5.6, замените в файле class.captcha.php строку 264 $ifunc( $this -> i [...]
  • Роман Чернышов: Схема такая: 1) На сайте есть виртуальные кошельки (далее ВК) 2) При пополнении пользователем ВК, [...]
  • Александр: Может скрипт комментариев блокирует сообщения с кодом? Или как длинный текст не проходит?
  • Александр: Пытаюсь в который раз здесь показать код, но страница обновляется, и не сообщения, ни любого оповеще [...]
  • Роман Чернышов: Лично у меня интерес к продаже ссылок пропал уже давно. Преимущество сапы, это то - что ссылки можно [...]
Портфолио Все работы


www.detskiy-mir.net
www.detskydoctor.ru
www.betelit.ru
www.all-alliance.ru
www.videogonok.ru
www.carpfishing.by
www.property-greek.com
www.domcons.ru

с 2009 года по сегодняшний день, создано более 300 сайтов...