Yahoo! JAPAN研究所 公式ブログ

研究成果や研究員の日々の活動を紹介します

ブログ記事

[ リスト | 詳細 ]

記事検索
検索
研究所スタッフです。

Yahoo! JAPAN研究所の紹介記事(第2回目)がインターネットコムに掲載されました。
前回記事は研究所全般についてでしたが、今回はメディア処理技術、なかでも自然言語処理と画像処理についてご紹介しています。


研究所で研究開発された技術は、Yahoo!ラボYahoo!デベロッパーネットワークでも公開されています。そちらもぜひご覧ください。

イメージ 1

Yahoo! JAPAN研究所スタッフです。久しぶりのブログ記事更新となります。

少し前のお話になってしまいますが、、、
昨年末のYahoo!ベビーのリニューアルにともない、Yahoo! JAPAN研究所の研究成果である「リコメンド技術」が、「ママ友だちになれるかも?」機能としてリリースされました。

「ママ友だちになれるかも?」とは……

お客さまに似ているママを紹介しています。
ママプロフィールを詳しく入力するほど、そのお客さまに近いママが紹介されます。
https://blogs.yahoo.co.jp/IMG/ybi/1/86/64/yjlab_blog/folder/1028721/img_1028721_24262891_0

具体的にどのような技術が利用されているのか……

コンテンツマッチ技術とアイテムベース協調フィルタリングが使われています。
 ■似ているママを探す ⇒ コンテンツマッチ技術
 ■似ているママをおすすめする ⇒ 協調フィルタリング技術
この2つの技術を利用することにより、ママプロフィールの作成と同時に、自動的に似ているママをレコメンドします。

コンテンツマッチ技術は、Yahoo!デベロッパーネットワークショッピングコンテンツマッチアイテムAPIショッピングコンテンツマッチランキングAPIでも公開されています。そちらもぜひご覧ください。

はじめまして。研究員の新田です。自然言語処理から知識処理に興味を持って研究しています。

先日、東京大学の講義の1コマを担当させていただきました。メディアコンテンツ特別講義Iという講義で、ヤフー社員を中心にインターネット業界の専門家の方々も交じえて、インターネットに関連する技術やビジネスを解説するというものです。同様の主旨の講義は数年前からヤフーの学術分野への貢献の一環として続けられています。今回、インターネットサービスでよく用いられる計算機技術の1つである機械学習をご紹介することになり、「機械学習による階層構造への文書分類」というテーマでお話しました。

機械学習という言葉からどのような技術をイメージされるでしょうか。人間や動物の脳が行う学習機能を計算機にも持たせたい、ということで人工知能という研究分野の中で研究されてきました。最近、統計的な計算によって効率よく学習を行うことのできる手法が開発されてきたのですが、人間や動物とは違って、下準備や条件を相当注意深く整えてやらないとうまく動きません。今回の講義では、ヤフーカテゴリのような大規模な階層構造にウェブの文書を分類する機械を学習させるために、どのような下準備や条件整備が必要になるのかを、最近の学界の研究成果を紹介しながら考えてみました。

金曜日の6コマ目という飲んで騒ぎたいような時間帯にも関わらず、しかも雨の中、たくさんの皆様にお集まりいただき、真剣に聴講し、有意義なご質問などいただきまして、感謝いたします。本ブログをお読みの皆様も、このような機会がございましたら、どうぞよろしくお願いいたします。

画像検索関連の研究開発を担当している研究所の岩崎と申します。Yahoo!ラボで類似画像検索のVisualSeekerを去る6/10にリリースしました。

最近は類似画像検索といっても目新しいものではなくなりましたが、類似画像検索以外のVisualSeekerの特徴は「高速高精度な検索」、「検索履歴のグラフ構造表示」、「複数画像検索」です。「複数画像検索」は別のブログで解説されているので、ここでは説明を省略します。「検索履歴のグラフ構造表示」は検索履歴の画像間で類似するものを線で結合しグラフ構造として見せるUIです。履歴を表示するだけでなく、画像の特徴量空間を二次元に表示していることにもなり、画像表示には効果的なUIではないかと考えています。

では、ここでは「高速高精度な検索」を実現している検索インデックスに関して少し説明します。

画像から抽出した特徴量を高速に検索するには、特徴量空間を検索する空間インデックスが必要になります。空間インデックスには大きく分けて多次元空間インデックスと距離空間インデックスの2種類があります。多次元空間インデックスは次元を意識したインデックスであり、空間で定義された距離関数に対してインデックスのアルゴリズムが定義されます。したがって、一般に距離関数が変わるとインデックスのアルゴリズム自体を変えなくてなりません。最近よく耳にするLSHもこれに属します。

一方、距離空間インデックスは次元を意識せず、どのような距離関数でも適用できます。画像から抽出される特徴量は多様であり、精度を上げるには色の特徴量では色差式に基づく距離を使う方が良く、テクスチャの特徴量ではL1-距離(市街地距離)を使ったりします。多様な距離関数を利用する場合には必然的に多次元空間インデックスが適用できなくなります。したがって、VisualSeekerでは距離空間インデックスを利用しています。

距離空間インデックスは適用範囲が広い分、次元数が増えると極端に速度が落ちる、いわゆる、次元の呪いの影響をより強く受けます。そこで、画像検索への応用としてはあまり見かけないグラフ構造型のインデックスに着目し研究開発を実施してきました。このグラフ構造型のインデックスはLSHなどと同様に近似検索(検索結果を近似しているので漏れの生じる可能性がある検索です)となりますが、次元の呪いの影響を受けにくいので、VisualSeekerでは高速かつ高精度の検索を実現できました。

このインデックスでは画像数が増加しても検索時間の増加が比較的少ない傾向があるので今後ウェブ上の大量の画像を検索することにも挑戦したいと考えています。


プライバシー -  利用規約 -  メディアステートメント -  ガイドライン -  順守事項 -  ご意見・ご要望 -  ヘルプ・お問い合わせ

Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.

みんなの更新記事