Сайт о телевидении

Сайт о телевидении

» » Парсинг HTML и скрепинг с помощью простой библиотеки HTML DOM. Создание html страниц с помощью PHP

Парсинг HTML и скрепинг с помощью простой библиотеки HTML DOM. Создание html страниц с помощью PHP

В этой статье я не буду Вам рассказывать о том, зачем нужны сайты, и какие деньги с помощью них можно зарабатывать. Здесь я хотел лишь поговорить о различиях сайтов, созданных с использованием разных средств.

Рассмотрим обычный HTML-сайт

С одной стороны мы возьмем обычный HTML-сайт, который по сути своей является статическим. Проще говоря, есть какое-то количество страниц с информацией, которые связаны между собой ссылками. Обычно страниц на таком сайте не очень много, хотя бывают и исключения.


А немного страниц на таких сайтах потому, что когда такой сайт начинает разрастаться им становится очень неудобно управлять. По этой причине человек либо вообще перестаёт следить за сайтом, либо пытается использовать какую-нибудь систему управления контентом (CMS). Есть также люди, которые пытаются изучать языки программирования для WEB, чтобы сделать свой сайт автоматизированным и от этого более удобным в управлении.

Но как показывает опыт, только единицы справляется с этой задачей, и их сайты продолжают расти и развиваться.

А что же со всеми остальными?

Кто-то копается в Интернете, кто-то пытается покупать бумажные книги. Но без базовых знаний устройства подобных языков программирования, без понимания основ сайтостроения такие попытки обычно заканчиваются ничем.

С другой стороны давайте посмотрим на сайт, сделанный с использованием связки обычного HTML и простого языка программирования для web — PHP.

Самое главное отличие этого сайта от предыдущего в том, что такой сайт можно создавать как конструктор из блоков. Сделали шапку сайта – поместили её в отдельный фаил, сделали левый блок с навигацией по сайту – поместили в отдельный файл и т.д.

Что это нам дает?

Это дает свободу. Т.е. теперь мы можем подключать эти блоки к основному каркасу и даже если у нас со временем на сайте будет 10000 страниц и нам вдруг понадобится изменить какой-то элемент навигации, то ничего сложного в этом не будет. Открыли фаил с нужным блоком, отредактировали и всё! На всех 10000 страницах это изменение произошло в один миг.

Кроме этого, всю полезную информацию (статьи, описание товаров и услуг, уроки, заметки и т.д.) такого сайта можно хранить в базе данных, что дает ещё больше преимуществ:

— Сайт занимает меньше места;
— Упрощается резервное копирование данных;
— Облегчается изменение любых данных;
— Становится возможным подсчет любой информации (сколько раз посмотрели страницу, скачали файл, добавили комментариев и т.д.);
— На сайте можно использовать множество готовых PHP скриптов;
— и т.д.

HTML или PHP

Если провести аналогию между HTML и PHP сайтами с автомобилями, то как современные автомобили стали комфортнее, мощнее, функциональнее и при этом стали потреблять топлива меньше чем аналоги 50-й давности, так и PHP сайт стал легче, функциональнее, проще в управлении и мобильнее чем его HTML оппонент.

К сожалению, в рамках одной статьи невозможно полностью раскрыть эту тему, но думаю даже по тем моментам, которые я здесь описал Вы сможете сделать вывод о том, какой сайт лучше создавать, чтобы идти в ногу со временем и получать достойную отдачу на вложенные в создание сайта усилия.

Евгений Попов – Автор 22,5 часового видеокурса «Все Технические Моменты Онлайн Бизнеса в Видеоформате 2 или PHP+MySQL для начинающих «, в котором прямо на экране Вашего компьютера с голосовыми пояснениями показывается весь процесс создания PHP сайта с нуля.

Если вы только что столкнулись с PHP, то вам нужно знать некоторые определения.
Прежде всего, PHP – это язык программирования и служит он для написания команд (сценариев), адресованных серверу. Если говорить ещё проще, то при помощи PHP мы можем общаться с сервером.
Команды PHP легко внедряются в HTML страницы. Именно это свойство является важным преимуществом языка PHP перед такими языками, как Perl и C.

Синтаксис PHP

PHP код сценария начинается после открывающего тэга . Текст между этими двумя тэгами считывается программой , находящейся на сервере, а в HTML-документ выводится полученный результат. Рассмотрим на примере:



Пример

include ("sidebar.htm") ;
?>


Если нам нужно что-то вставить в html код страницы необходимо использовать команду include (вставить). Далее указываем адрес файла, а заканчивается строка, как и в CSS ;

Вставляем HTML код в страницы сайта

Как правило боковые колонки (sidebar ) и подвал (footer ) остаются неизменными на всех страницах сайта. Следовательно коды

.....
и можно вынести в отдельные htm страницы "sidebar.htm" и "footer.htm" и вставлять в страницы сайта при помощи команды include . Если при этом вынести в отдельный файл и главное содержимое -
.....
, то код нашей страницы будет иметь вид:



Пример

include ("sidebar.htm") ;
include ("content.htm") ;
include ("footer.htm") ;
?>


содержимое sidebar.htm


здесь
содержимое
Вашего
сайд-бара

Аналогично с файлами content.htm и footer.htm .

При такой генерации страниц Вам достаточно внести изменения в один файл "sidebar.htm" , что бы изменились все страницы сайта. Что очень удобно если Ваш сайт состоит из сотни или тысячи страниц.

PHP на Вашем компьютере

Чтобы Вы могли работать с PHP-скриптами и просматривать результаты выполнения в браузере, вам нужно установить работающий веб сервер с PHP на Вашем локальном компьютере.
Лучше всего для таких задач подойдёт Денвер . (официальный сайт предоставляет всё необходимое бесплатно ) В комплект установки входит - Apache, php и MySQL. Другими словами на Вашем компьютере будет находиться полнофункциональный сервер для хостинга сайтов .

Для того, что бы PHP код работал в HTML страницах необходимо открыть файл .htaccess в любом текстовом редакторе и прописать следующее:

AddHandler application/x-httpd-php .html

Данная запись разрешает выполнение PHP скриптов в HTML страницах.

Или изменить расширение файла.html на.php

Возможности PHP

PHP способен не только выдавать HTML. Возможности PHP включают формирование изображений, файлов PDF и даже роликов Flash (с использованием libswf и Ming), создаваемых "на лету". PHP также способен выдавать любые текстовые данные, такие, как XHTML и другие XML-файлы. PHP способен осуществлять автоматическую генерацию таких файлов и сохранять их в файловой системе вашего сервера, вместо того, чтобы отдавать клиенту, организуя, таким образом, кеш динамического содержания, расположенный на стороне сервера.

Одним из значительных преимуществ PHP является поддержка широкого круга баз данных. Словом, PHP может предложить вам очень многое! Подробно о преимуществах PHP можно ознакомиться на www.php.su .

February 1, 2015

Вы узнаете, как получить список всех статей, опубликованных на сайте.

Шаг 1. Подготовка

В первую очередь нужно скопировать библиотеку simpleHTMLdom , которая доступна на сайте

В архиве для загрузки хранятся несколько файлов, но вам нужен только один simple_html_dom.php . Все остальные файлы - это примеры и документация.

Шаг 2. Основы парсинга

Данную библиотеку очень просто использовать, но есть несколько основных моментов, которые следует изучить до того, как вы начнете приводить ее в действие.

$html = new simple_html_dom();
// Загрузка из строки
$html->load("

Hello World!

");
// Загрузка файла
$html->load_file("http://net.tutsplus.com/");

Вы можете создать исходный объект загрузив HTML либо из строки, либо из файла. Загрузка из файла может быть выполнена либо через указание URL , либо из вашей локальной файловой системы.

Примечания: Метод load_file() делегирует работу функции PHP file_get_contents . Если allow_url_fopen не установлен в значение true в вашем файле php.ini , то может отсутствовать возможность открывать удаленные файлы таким образом. В этом случае вы можете вернуться к использованию библиотеки CURL для загрузки удаленных страниц, а затем прочитать с помощью метода load() .

Доступ к информации

Как только у вас будет объект DOM, вы сможете начать работать с ним, используя метод find() и создавая коллекции. Коллекция - это группа объектов, найденных по селектору. Синтаксис очень похож на jQuery.



Hello World!


We"re Here.




В данном примере HTML мы собираемся разобраться, как получить доступ к информации во втором параграфе, изменить ее и затем вывести результат действий.

1. # создаем и загружаем HTML
2. include("simple_html_dom.php");
3. $html = new simple_html_dom();
4. $html->load(“

Hello World!

“);
5. # получаем элемент представляющий второй параграф
6. $element = $html->find(“p“);
7. # модифицируем его
8. $element->innertext .= “ and we"re here to stay.“;
9. # Выводим!
10. echo $html->save();

Строки 2-4 : Загружаем HTML из строки, как объяснялось выше.

Строка 6 : Находим все тэги

В HTML, и возвращаем их в массив. Первый параграф будет иметь индекс 0, а последующие параграфы индексируются соответственно.

Строка 8 : Получаем доступ ко второму элементу в нашей коллекции параграфов (индекс 1), добавляем текст к его атрибуту innertext. Атрибут innertext представляет содержимое между тэгами, а атрибут outertext представляет содержимое включая тэги. Мы можем заменить тэг полностью, используя атрибут outertext.

Теперь добавим одну строку и модифицируем класс тэга нашего второго параграфа.

$element->class = "class_name";
echo $html->save();

Окончательный вид HTML после команды save будет иметь вид:



Hello World!


We"re here and we"re here to stay.



Другие селекторы

Несколько других примеров селекторов. Если вы использовали jQuery, все покажется вам знакомым.

# получаем первый найденный элемент с id=“foo“
$single = $html->find("#foo", 0);
# получаем все элементы с классом “foo“
$collection = $html->find(".foo");
# получаем все теги ссылок на странице
$collection = $html->find("a");
# получаем все теги ссылок, которые расположены внутри тега H1
$collection = $html->find("h1 a");
# получаем все теги img с title="himom"
$collection = $html->find("img");

Первый пример требует пояснений. Все запросы по умолчанию возвращают коллекции, даже запрос с ID, который должен вернуть только один элемент. Однако, задавая второй параметр, мы говорим “вернуть только первый элемент из коллекции”.

Это означает, что $single - единичный элемент, а не не массив элементов с одним членом.

Остальные примеры достаточно очевидны.

Документация

Полная документация по библиотеке доступна на .

Шаг 3. Пример из реального мира

Для демонстрации библиотеки в действии мы напишем скрипт для скрепинга содержимого сайта net.tutsplus.com и формирования списка заголовков и описания статей, представленных на сайте….только в качестве примера. Скрепинг относится к области трюков в веб, и не должен использоваться без разрешения владельца ресурса.

Include("simple_html_dom.php");
$articles = array();
getArticles("http://net.tutsplus.com/page/76/");

Начнем с подключения библиотеки и вызова функции getArticles с указанием страницы, с которой мы хотим начать парсинг.

Так же объявим глобальный массив, чтобы сделать проще сбор все информации о статьях в одном месте. Прежде чем начинать парсинг взглянем, как описывается статья на сайте Nettuts+.



...


Title




Description



Так представлен основой формат поста на сайте, включая комментарии исходного кода. Почему важны комментарии? Они подсчитываются парсером как узлы.

Шаг 4. Начало функции парсинга

function getArticles($page) {
global $articles;
$html = new simple_html_dom();
$html->load_file($page);
// ... Дальше...
}

Начинаем с объявления глобального массива, создаем новый объект simple_html_dom , и затем загружаем страницу для парсинга. Данная функция будет рекурсивно вызываться, поэтому устанавливаем для нее в качестве параметра URL страницы.

Шаг 5. Находим ту информацию, которая нам нужна

1. $items = $html->find("div");
2. foreach($items as $post) {
3. # помним про учет комментариев в качестве узлов
4. $articles = array($post->children(3)->outertext,
5. $post->children(6)->first_child()->outertext);
6. }

Это суть функции getArticles . Нужно разобраться более детально, чтобы понять, что происходит.

Строка 1 : Создаем массив элементов - тег div с классом preview. Теперь у нас есть коллекция статей, сохраненная в $items .

Строка 4 : $post теперь ссылается на единичный div класса preview. Если мы взглянем в оригинальный HTML, то увидим, что третий элемент потомок - это тег H1 , который содержит заголовок статьи. Мы берем его и присваиваем $articles .

Помните о начале отсчета с 0 и учете комментариев исходного кода, когда будете определять правильный индекс узла.

Строка 5 : Шестой потомок $post - это

. Нам нужен текст описания из него, поэтому мы используем outertext - в описание будет включен тег параграфа. Единичная запись в массиве статей будет выглядеть примерно так:

$articles = “Заголовок статьи“;
$articles = “This is my article description“

Шаг 6, Работа со страницами

первым делом нужно определить, как найти следующую страницу. На сайте Nettuts+ о номере страницы очень легко догадаться по URL, но нам нужно получать ссылку в парсинге.

Если посмотреть на HTML, то можно найти следующее:

»

Это сслыка на следующую страницу, и мы можем легко ее найти по классу ‘nextpostslink ’. Теперь эта информация может быть использована.

If($next = $html->find("a", 0)) {
$URL = $next->href;
$html->clear();
unset($html);
getArticles($URL);
}

В первой строке мы проверяем, можно ли найти ссылку с классом nextpostslink . Отметим использование второго параметра в функции find() . Таким образом мы указываем, что хотим получить первый элемент (индекс 0) в возвращаемой коллекции. $next содержит единичный элемент, а не коллекцию.

Затем мы присваиваем ссылку HREF переменной $URL. Это важно, потому, что далее мы удаляем объект HTML. Чтобы предотвратить утечку памяти в php5, текущий объект simple_html_dom должен быть очищен и разустановлен, прежде чем другой объект будет создан. Если этого не сделать, то вся доступная память может быть поглощена.

В завершение, мы вызываем функцию getArticles с URL следующей страницы. Рекурсия прерывается, когда не остается страниц для парсинга.

Шаг 7. Вывод результатов

Первое, мы собираемся установить несколько основных стилей. Все абсолютно произвольно - вы можете устанавливать то, что нравится.

#main {
margin:80px auto;
width:500px;
}
h1 {
font:bold 40px/38px helvetica, verdana, sans-serif;
margin:0;
}
h1 a {
color:#600;
text-decoration:none;
}
p {
background: #ECECEC;
font:10px/14px verdana, sans-serif;
margin:8px 0 15px;
border: 1px #CCC solid;
padding: 15px;
}
.item {
padding:10px;
}

Затем мы пишем маленькую функцию на PHP в странице для вывода предварительно сохраненной информации.

foreach($articles as $item) {
echo "

";
echo $item;
echo $item;
echo "
";
}
?>

Окончательный результат - это одна страница HTML со списком всех статей со страниц Nettuts+, начиная с той, которая была указана в первом вызове getArticles() .

Шаг 8. Заключение

Если Вы запускаете парсинг для большого количества страниц (скажем, весь сайт), то это может занять много времени. На таком сайте как Nettuts+, который имеет боле 86страниц, процесс парсинга может длиться более минуты.

Данный урок открывает для вас тему парсинга HTML. Существуют другие методы методы работы с DOM, которые позволяют работать с селектором xpath для поиска элементов. Описанная в данном уроке библиотека проста для использования и отлично подходит для быстрого старта. Помните, что нужно спрашивать разрешения, прежде проводить скрепинг сайта.

От автора: PHP или HTML – что лучше? Никогда не задавайте такого вопроса профессионалу. Во-первых, в его глазах вы сразу «упадете» до уровня полнейшего «чайника». А во вторых… Такой вопрос может возникнуть только у полнейшего «чайного сервиза». Ну, значит сегодня у нас «чаепитие», посвященное этой странной теме.

Курица, яйцо – кто первый?

Вот не надо смотреть такими глазами на этот заголовок. Поверьте, вопрос о приоритетности между языком гипертекста и для меня также выглядит немного устрашающе. От чего так? Ну, потому что мы с вами встречаемся уже не первый раз и очень надеюсь, что таких вопросов у вас не возникает. Но все-таки разберемся!

Для начала выясним, что собой представляет современный сайт. Чтобы долго не «шнырять» около да вокруг, сразу сведения. Сейчас любой веб-ресурс создается с помощью четырех технологий:

HTML – он (как и ранее) служит для разметки страниц на составляющие элементы.

CSS – отвечает за внешний вид сайта.

JavaScript – обеспечивает взаимодействие UI (пользовательского интерфейса) с человеком.

PHP – обеспечивает динамическое создание ресурсов и все вытекающие из этого «последствия»: CMS, плагины под них и т.д.

Да, чуть не забыл о еще MySQL. Это СУБД такая . Думаете, издеваюсь? Да нет! Просто тема у нас такая «чайная» — чем отличается HTMLот PHP. Я бы за эти вопросы Шнобелевские премии раздавал (такие есть).

Ну, так попробуйте выкинуть одну из перечисленных составляющих современного сайта и вы получите не динамический ресурс, а еле «плетущийся» статический ужас. Особенно, если избавиться от .

Различия на примерах

Устные доводы о приоритетности и различии двух дисциплин можно приводить бесконечно долго. Лучше отличия PHP от HTML разобрать на конкретных примерах. Выясним, в каком из вариантов будет легче поменять цвет фона.

Есть такой очень популярный движок, который называется WordPress. Он работает на PHP. Для сравнения, возьмем разметку обычной веб-страницы и попытаемся в ней изменить фоновый цвет. Затем то же самое реализуем с помощью админки CMS.

Чтобы лучше уяснить, чем отличаются HTML и PHP, постарайтесь найти в этом коде строку, отвечающую за цвет фона. Сразу подскажу, что ее здесь нет. Это стилевое свойство (background-color) нужно прописать. При этом надо знать, где его добавлять. А весь сайт состоит не из одной страницы, а десятков.

Теперь сделаем то же самое через административную панель WordPress. Для этого нам нужно перейти в визуальный редактор страницы и в установленной теме поменять соответствующий параметр путем нажатия нескольких кнопок.