URLを入力するだけで、表やリストなどの規則性のあるデータをCSV変換してくれるツール「import.io」の紹介記事が話題となっている。

URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」

Import.io | Web Data Platform & Free Web Scraping Tool

既存サイトをCMSベースでリニューアルする際に、意外と工数と割かれるのが「データの流し込み」である。
一般には手作業でコピペするか、PHPかjQueryで既存サイトのHTMLを解析するのだが、このサービスが利用できないだろうか。実際にいくつかのサイトを解析してみた。

どこまでスクレイピングできる?

指定したURLのブラウザ上でのデータの解析までは、アカウントなしで実行できる。これをCSVとしてダウンロードしたり、外部から実行できるAPIとして保存する場合には、アカウント作成を求められることになる。

アイウェアブランド「JINS」の商品一覧1ページ目を解析した結果は以下のとおり。
商品URL、商品名、商品のサムネイル、価格などきれいに抽出されている。



ただし、当然ながらHTMLに記載された情報以外は取得できないため、アイコンやチェックボックスはHTMLに書かれた「スプライト画像」がそのまま表示されてしまっている。最近のWeb製作は、CSSスプライトやWebフォントを利用しているケースも多く、HTMLの解析だけでは難しいケースも多いだろう。

次いで、「Tポイント・Tカード」の加盟企業一覧を解析した結果は以下のとおり。
どうやら解析に失敗したようで、途中の一部のみのデータとなっている。中見出しとリストがページ内に繰り返されているHTMLの解析まではできないようだ。



データの下にあるピンクの楕円のアイコンは「セル内に複数のデータが存在する」という意味で、CSVとしてダウンロードすると、セミコロン(;)でセル内のデータがさらに分割された状態となっている。

結論、そして注意すべきこと

筆者としては、サイトリニューアルのデータ抽出用ツールとしては、確実性に欠けるという感想を持った。jQueryの基本的な知識があれば、繰り返しデータを抽出してCSV形式で出力することは難しくないので、実務ではやはり、きちんと自力で解析した方がよさそうだ。

また、このツールを利用すると、解析結果は「Import.io」に取得される可能性があることに、厳重に注意したい。よくある質問を見た限りでは「作成したAPIが利用者と結びつけられることはない」「データは運営元の業務分析に使用される」とはあるが、データがアカウント情報を指すのか、解析結果を指すのかは明記されていない。

On the enterprise side, the data provided by import.io is used to conduct competitive analysis, monitor trends, track channel partners, analyze customer reviews and much more. We have customers from some of the world’s most iconic brands using data we collect to make critical business decisions.

企業側では、import.ioによって提供されたデータは、競合分析、モニタトレンド、トラックチャネルパートナーを行っカスタマーレビューおよび大いに多くを分析するために使用されます。我々は、重要なビジネス上の意思決定をするために収集したデータを使用して、世界で最も象徴的なブランドのいくつかの顧客を持っています。

FAQs - Import.io

少なくとも、このツールの利用は、非公開のダミーデータ作成などにとどめ、情報の取り扱いを慎重にしなければならないサイトや、公開前コンテンツへの利用は避けなければならないだろう。


ニュースの詳細はこちら

URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」

免責事項

当記事は掲載時点の内容であり、予告なく変更されている可能性があります。引用元の詳細ページで最新情報をご確認ください。
発表されたプレスリリースの一部となり、すべて掲載してはおりません。あらかじめご了承ください。
このコンテンツは、各CMSコミュニティの許諾を得て配信しています。詳しくはサイトポリシーを参照ください。