先日、位置情報関連のAPIを3つ公開しました。
[位置表現特定API]
与えられたテキストから、その主題との関連の強い位置表現(住所やスポット名など)を抽出し、緯度経度情報付きで返すAPIです。単純に住所やスポット名らしき文字列をピックアップするのではなく、文章の内容に応じて絞り込みをかけているところがミソです。名前こそ「位置表現特定」となっていますが、その実としては、「テキストの場所」を特定することを目指しています。
APIの説明にも書きましたが、単純に文字列をピックアップするだけのアプローチには2つの大きな問題点があります。
- 同じ地名、スポット名に複数の候補がある
たとえば、「清水寺」に緯度経度を振ろうとすると非常にたくさんの候補があります。(日本には「清水寺」というお寺がたくさんあるため(「清水寺」でジオコードした結果)) このAPIでは京都が話題の中心の場合は京都の清水寺の位置だけを返します。 - 地名、スポット名でないものを間違えてピックアップする
「福井」さんが京都に旅行に行ったという風な話題の時に「福井」を地名として取ってしまっては困ります。このAPIではこのような地名との取り違えといった問題が起こりにくくなっています。
課題もたくさんあります。
- スポット名データの拡充
- 異表記対応
- 絞込みの精度向上
[位置情報付きコンテンツ検索API]
いくつかのブログサイトを対象にしてクローリングし、位置表現特定APIを使って緯度経度とURLを対応付けたデータベースを作成しました。そのデータベースを対象にして緯度経度からブログエントリのURLを検索できるようにしたAPIです。
各ブログサイトの「旅行」や「地域」といった、位置情報を多く含みそうなカテゴリをクローリングの対象としています。
[GeocodeAPI]
いわゆるひとつのジオコーダです。位置表現特定APIの内部でも使用しています。
このジオコーダの面白い機能の一つに、位置表現と同時に緯度経度を与えて結果をソートさせるというものがあります。つまり、ある表現に対して複数の緯度経度が考えられる場合に、基準点から一番近いものを選べる訳です。
たとえば、「金閣寺と清水寺に行った」という文章があったとします。「金閣寺」の緯度経度は1箇所に定まりますが、「清水寺」にはたくさんの候補があります。こういう場合に、確定している金閣寺の緯度経度を与えることで京都の京都の清水寺が候補の最初に出てきます。
以上3つのAPI、ぜひ使ってみてください。そして、ご意見ご要望、データの不備などがありましたらどしどしコメントをお寄せください。







コメント (1)
メンテナンスのため、[位置情報付きコンテンツ検索API]を
数日間、間歇的に停止します。ご利用の皆様には、ご迷惑を
おかけしますが、よろしくお願いします。
投稿者: okumula | 2008年01月22日 13:48