こんにちは、DXCEL WAVEの運営者(@dxcelwave)です!
Webスクレイピングとは
Webスクレイピング(Web Scraping)とは、WebサイトのHTMLからデータを抽出する技術を指します。スクレイピング、Webスクレイピングの他に、Webデータ抽出、データスクレイピング、ウェブ・クローラー、ウェブ・スパイダー等と呼ばれることもあります。
スクレイピングは、クローラー(インターネットに存在するWebサイトや画像情報を取得し、データベースを自動的に構築するプログラム)というものを用いてデータ取得を行うため、短時間で多量な情報収集が実現できます。
近年ではWebスクレイピング技術を取り入れる企業が増加していますが、具体的な活用事例はなかなかイメージしづらいところもあるでしょう。そこで、以下活用事例を見ながら利用シーンの理解を深めていきましょう。
Webスクレイピング活用事例
Webスクレイピングによって収集したデータは、データ加工によって様々な用途に活用することができます。具体的に、自社のマーケティングに活動に活用されるケースが多いでしょう。
最新ニュース・情勢のトレンド調査
最新ニュースサイトやブログ記事、論文をもとに、見出しやサマリー部分をスクレイピングによって情報抽出します。そして、抽出した情報をexcelやwordのレポート形式として自動出力させることで、効率的なトレンドの分析を実現することができます。
競合調査
商品を自社で保有している企業であれば、他社との相場比較のために、価格調査を実施することも多いかと思われます。複数の競合サイトの価格情報を収集し、商品の価格解析レポートを自動で作成できるといったことも可能でしょう。
その他、ホームページの検索順位や、競合企業の財務解析、株価解析にも上図のような形式での利用が期待できます。
Webスクレイピングの利点・注意点
Webスクレイピングは、企業内部に蓄積されていない外部データの利活用を可能とするため、マーケティング活動や財務活動の高度化には欠かせない技術と言えるでしょう。一方で、Webスクレイピングには注意点もあり、アクセス制限やセキュリティ問題、一番大きなところで法律問題があることを忘れてはなりません。それでは下記より、利点と注意点について詳しく触れていきましょう。
Webスクレイピングのメリット
外部データ利活用により、マーケティングや財務活動を高度化
自社に蓄積されたデータに加え、Web上のありとあらゆるデータが利用可能となります。外部データの活用は、新規顧客獲得にむけたマーケティング活動支援を実現したり、競合企業のデータも踏まえた財務解析の高度化に貢献できます。
手作業でのWeb調査が不要となるため、業務効率化が期待
Web調査とは、手作業での実施が一般的でしょう。しかし、Webスクレイピング技術活用により、ツールやロボットが人の代わりとして調査代行してくれます。今まで多くの時間を費やしたWeb調査を自動化し、業務効率化を測る手段としても期待されるわけです。
Webスクレイピングの注意点
定期的なWebスクレイピングツールの保守業務が必要
Webスクレイピングは、HTMLで取得したデータ加工を起点とします。つまり、WebサイトのHTMLの構造が変化した場合、スクレイピングを実行するためのプログラムの修正が必ず発生するわけです。それゆえ、正常にWebスクレピングツールを動作させるためには、下記の観点を定期的に実施する必要が出てきます。
- 定期的にデータ取得元のWebサイトを訪れ、HTMLの構造が変わってないかチェックする。
- ウェブサイトのHTML構造の変化に応じて、Webスクレイピングツールのプログラムも編集する。
スクレイピング先のWebサイトに負荷を与えないよう十分考慮
Webサイトに負荷を与えることは偽計業務妨害の罪として見なされる場合があります。
偽計業務妨害で実際の逮捕者が出た事件として「Librahack事件」が挙げられます。Librahack事件とは、個人で作ったツールによって図書館情報を取得した際、システムにアクセス障害が生じさせたことをきっかけに当事者が逮捕されたというものです。
Webスクレイピングツールに対して、事前にホームページに負担を与えないような設定を施し、サイト負荷を十分考慮できるようにしましょう。
セキュリティ問題が発生しないように十分考慮
例えば、Webサイトの会員ページにログインし、スクレイピングを実施するケースがあります。その際、ログイン情報やパスワードを予めプログラムに読み込ませる必要が出てくるわけです。プログラム上にパスワード等の個人情報を掲載すると、後々セキュリティでの問題に繋がるケースがあります。セキュリティに関する情報管理は十分に配慮しましょう。
法律に準拠し、情報解析の用途以外では使わない
法律とは具体的に、著作権侵害にあたる場合になります。ここで著作権とは、著作物を著作者が独占的に利用できる権利を意味します。著作物とは、自分の思考や感情を創作的に表現したものであり、具体的に以下が著作物に該当します。
- 言語・文書の著作物(小説、脚本、論文、講演など)
- 音楽の著作物(楽曲、歌詞など)
- 舞踏の著作物
- 美術の著作物(絵画、彫刻など)
- 建築の著作物
- 地図や学術的図面の著作物
- 映画の著作物
- 写真の著作物
- 編集物(百科事典、辞書、新聞など)
- プログラム
- データベース(編著作物のうちインターネットで検索可能なもの)
著作物を同意無しに情報をコピーした場合、著作権法に抵触する危険性があるわけです。ただし、著作権法の例外規定として、コンピュータによる情報解析が目的の場合に限り、記録媒体への記録又は翻案が許容されています。
つまり、以下の2点に準拠することで著作権上の問題なくスクレイピングすることができます。
- スクレイピングしたデータは情報解析を目的として利用すること
- スクレイピングでの取得データを複製して第三者に譲渡するのは、著作権法上ご法度行為に該当する。ゆえに情報共有を検討する際は、事前に取得データを分析した後、データを再構成しておくことが重要。
Webサイトの利用規約を考慮
情報解析目的でスクレイピングを実施した際の例外ケースとして、事前にスクレイピング先のWebサイトの利用規約に同意していた場合、利用規約違反に該当する場合があります。具体的にどのようなケースを指すか見てみましょう。
まず、利用規約とはWebサイト利用に関する契約のようなものを指します。下図のようなものです。
利用規約の中には、スクレイピングの禁止を促す表現が記載されていることがあります。この利用規約を無視してスクレイピングをしてしまった場合、すぐに違反として扱われるのでしょうか?
回答として、Webサイトの運用者とスクレイピング実施者の間にスクレイピングに関係する行為は行わないとの利用規約の合意が成立していた場合違反として取り扱われます。上図の場合、スクレイピング実施者が事前に「利用規約に同意する」をクリックしていた時点で利用規約を守る義務が付与されるイメージです。
一方で、利用規約に合意しなかった場合は、利用規約違反の問題になることはありません。例えば、利用規約が訴求されるシーンとして会員登録があります。ここで会員登録等せず利用規約に合意しなかった場合は、サイト運用者との間に契約関係が成立しないため、利用規約違反に該当することが無くなるわけです。
利用規約に予め合意した上でスクレイピングを実施してしまうと、利用規約違反となり、損害賠償金が請求される可能性もあるため、十分注意を払いましょう。
【まとめ】Webスクレイピング利用規約
Webスクレイピングは、企業のマーケティング活動の高度化や業務効率化に寄与できます。一方で、スクレイピング技術利用の際は、必ず法律の問題を重々理解して利用することが求められます。刑法上の責任を問われることのないように、関係が深い法律や注意点は必ず理解し、スクレイピングを行うことが重要です。
最後に
お問い合わせフォーム
上記課題に向けてご気軽にご相談下さい。
お問い合わせはこちら