不動産情報の収集/抽出システム(クローラー)の開発

System

ビッグデータの時代

情報を活用したビジネスが成長を続けています。その中でも不動産情報を活用したサービスには多種多様なものがあり、今この瞬間も新しいサービスが生まれ続けています。

単純に不動産取引のマッチングを促すものはもちろん、経済指標としての活用など、様々なかたちで不動産データを活用する流れになってきています。そんな中で、自社のサービスを拡充したり、新規ビジネスとして不動産データを収集・抽出・分析したいという方も多いのではないでしょうか。

今回は、こうしたデータ収集の仕組み、クローラーの開発について考えてみたいと思います。いくつかのポイントで整理してみましょう。

Point.1 データ量との戦いに備える

大規模にデータを収集すればするほど、当然のことながら、データベースにたまるデータ量は膨大なものになっていきます。データ量の多さはそのままコストの上昇を意味しますし、システムとしての負荷やデータをいざ活用する段での速度面にも大きな影響を及ぼします。

最終的にどのようにデータを使うかに依存しますが、段階的に拡張できるかたちにはじめからしておくのが重要です。ある程度の予算があるのであれば、クラウドサービスを利用するのがもっとも身軽かつスピーディーです。GoogleやAmazonの提供しているサービスを活用することで、いわば無限のデータ量を活用できるようになります。

Point.2 クローラーは相手の負荷を考える

クローリングは相手のシステムにとっては負荷でしかありません。場合によってはアクセスを遮断される場合もあるでしょう。クロールが禁止されている場合はクロールすべきではないのは当然として、それ以外にも、クロール先のサーバーの負荷を考えたクローラー設計にすべきです。

ただ、相手への配慮を強めると、通常はクロールの効率が落ちるため、そこは一工夫が必要です。並列実行や処理を高速化する等して、「優しく強い」クローラーを目指すべきです。

Point.3 データの取り出し方を柔軟にする

収集したデータは資産です。その資産を様々なかたちでとりだして事業にかえることになると思います。その場合に問題になるのがデータの場所とその取り出し方です。

特定のサーバーでしかデータが取り出せない、といった制限があると、自前のサービスでしかデータを活用できません。かといって、データをまるまるコピーするにはデータ量が大きすぎます。

データを管理するサーバーをAPIサーバーのようにし、自前サービスはもちろん、場合によってはパートナー会社からアクセスできるようにデータの場所と、その利用する場所が別々でも機能するようにしましょう。システムとしても切り分けることができるため、収集は収集、活用は活用と、より適切なシステム構成にできることもメリットの一つです。

データをどう料理するか

データは溢れていますが、それを活かせている企業はほんの一部です。データはあくまで素材であり、それをどう料理するか。しかも、単純な料理ではなく、色々な組み合わせの中で自社にしかできない料理法を編み出したところが成長しているように思います。

クローラー開発においてはもちろんデータを集めることが目的になりますが、その先にはそれを活用した事業というものが存在するはずです。そのことを忘れず、「優しく強い」クローラー開発を目指してみてください。

関連エントリー