Пишем парсер rss фидов блогов из выдачи google.
Если лень искать контент в ручную, то этот урок поможет вам. В ходе этого урок я расскажу вам как быстро и аккуратно парсить rss фиды блогов найденные в google.
Начнем. Записываем в переменную слово для поиска:
<?php
$keyw=” viagra”;
Теперь для запроса заменяем пробел на “+”
$keyw=str_replace(” “,’+',$keyw);
В переменную запишем адрес(не меняем и не убираем куски адреса, это может плохо повлиять на результат поиска)
$url=”http://www.google.com/blogsearch_feeds?as_q=”.$keyw.”&hl=En&ctz=-600&c2coff=1&as_epq=&as_oq=&as_eq=&as_drrb=q&as_qdr=a&as_mind=1&as_minm=1&as_miny=2000&as_maxd=”.date(‘j’).”&as_maxm=”.date(‘n’).”&as_maxy=”.date(‘Y’).”&lr=&q=”.$keyw.”&ie=utf-8&num=100&output=rss”;
Теперь воруем контент
$q=html_entity_decode(@file_get_contents($url));
Удаляем урл
$q=str_replace($url,”,$q);
Достаем начало
$arr = explode(‘<item>’,$q);
Производим замены
for($i=1;$i<=10;$i++) {
$tmp = $arr[$i];
$tmp = substr($tmp,strpos($tmp,’<item>’)+7);
$tmp = substr($tmp,0,strpos($tmp,’</item>’));
$tmp=str_replace(“<dc:date>”,’ <i>’,$tmp);
$tmp=str_replace(“</dc:date>”,’</i> ‘,$tmp);
$tmp=str_replace(“<dc:creator>”,”,$tmp);
$tmp=str_replace(“</dc:creator>”,”,$tmp);
$tmp=str_replace(“<link>”,”,$tmp);
$tmp=str_replace(“</link>”,”,$tmp);
$tmp=str_replace(“<dc:publisher>”,”,$tmp);
$tmp=str_replace(“</dc:publisher>”,”,$tmp);
$tmp=str_replace(“<description>”,”,$tmp);
$tmp=str_replace(“</description>”,”,$tmp)
;
Выводим всё это на экран
print “<p>”.$tmp.”</p>”;
}?>
Всё, вот такой простой и функциональный Парсер
Использованные функции:
- strpos — Возвращает позицию первого вхождения подстроки
- html_entity_decode — Преобразует HTML сущности в соответствующие символы
- file-get-contents - Получить содержимое файла в виде одной строки
- str_replace— Заменяет строку поиска на строку замены





Добавить комментарий
Вы должны войти