Published on

簡単にwordpressでスクレイピングをする方法【自動更新】

目次

スクレイピングについてすでに多くの記事がありますが

自動的に指定したサイトの内容を読み取ったりする場合のことを指します。

所有する自サイトが多くあり、一つのサイトに更新情報をまとめる場合などにいいかと思います。

※悪用は厳禁です

簡単にwordpressでスクレイピングをする方法。

FeedWordPressというプラグインでスクレイピング

※WordPressの最新バージョンではテストされていないようです。

wordpressのプラグインの新規追加からFeedWordPressを追加する

インストール後、プラグインを有効化する

初期設定

・記事の更新間隔を設定する

ダッシュボードのメニューからsyndicationのFeeed & Updatesを選択

Update scheduling の項目のUpdates を

automatically check for updates before pages load

に指定
下のUpdate scheduling のwait は更新の間隔を決める。に設定

※初期設定の60以下にするにはcronを使用すれば設定可

次に、取得した記事を記事紹介形式で投稿するか、自サイトの記事として投稿するかを選択

Syndicated からPosts & Links を選択

リンクの項目の Permalinks point to から

記事紹介形式の場合は

The copy on the original website

自サイトの記事として投稿する場合は

The local copy on this  website

を選択

最後に、取得するサイトURLを追加する

Syndicationあるいはダッシュボードの

New sourceに取得したいサイトURLを入力し、addをクリック

これで自動的に指定したサイトの記事を取得し自サイトに記事が自動的に投稿されます。


スクレイピングのライブラリを使う

PHP Simple HTML DOM Parserを使う方法

必要なファイルは以下からダウンロードしてください。
PHP Simple HTML DOM Parser

取得場所の指定がXPathだったり少し前までよく使われていた印象です。
速度も特段早いわけではないようです。

※他サイトの情報を取得する場合は十分ご注意ください。

phpQueryを使う方法

ここからダウンロードできます。
実行ファイルをインクルードして読み込んで使用します。
jQueryのようにidやclassを指定して取得できるようです。
dom操作もできるようですね。

Goutteを使う方法

Goutteはこちら。
特徴はCSSライクで取得できることですね。
あと内部はネイティブなPHPなので速度も早い。
比較するならphpQueryかな。

まとめ

より簡単に無料でWordPressでスクレイピングをするならプラグインを使用しましょう。
自由度を求める場合は各種ライブラリを使ったほうがいいですね。

スクレイピングを利用してこんなことがしたい、こんなものがほしいといったご要望があればぜひご相談ください。

よろしければこちらもどうぞ。

[kanren id="15139"]

スクレイピングを利用したプラグインです。

[kanren id="15527"]

※アダルト動画まとめサイトの制作については

こちらご確認ください。

詳細についてはお問い合わせください。