简单的PHP网页抓取器 - Goutte

2010-04-22      5634      PHP
项目简介

Goutte ,一个简单的PHP网页抓取器

Goutte是一个屏幕住区和网页爬行库,应用于PHP。

环境需求

Goutte依赖PHP5.5+和Guzzle6+。

安装

在你的composer.json文件中将fabpot/goutte作为一个需求依赖添加:

composer require fabpot/goutte

使用方法

创建一个Goutte客户端接口:

use Goutte\Client;
$client = new Client();

使用request()方法进行请求:

// Go to the symfony.com website
$crawler = $client->request('GET', 'http://www.symfony.com/blog/');

这个方法返回一个Crawler对象。

最终cURL选择:

$client->getClient()->setDefaultOption('config/curl/'.CURLOPT_TIMEOUT, 60);

点击链接:

// Click on the "Security Advisories" link
$link = $crawler->selectLink('Security Advisories')->link();
$crawler = $client->click($link);

额外数据:

// Get the latest post in this category and display the titles
$crawler->filter('h2 > a')->each(function ($node) {
    print $node->text()."\n";
});

提交表单:

$crawler = $client->request('GET', 'http://github.com/');
$crawler = $client->click($crawler->selectLink('Sign in')->link());
$form = $crawler->selectButton('Sign in')->form();
$crawler = $client->submit($form, array('login' => 'fabpot', 'password' => 'xxxxxx'));
$crawler->filter('.flash-error')->each(function ($node) {
    print $node->text()."\n";
});