米Google 2012年3月のSearch quality highlightsを公開 - 類義語関連処理の強化など

米Googleが2012年3月度の検索システム更新内容レポート「Search quality highlights」公開。類義語関連のシステム変更が多い。


公開日時:2012年04月04日 06:56

米Googleは2012年4月3日、検索アルゴリズムや機能の更新内容を伝える月例の「Search quality highlights」を公開した。3月に実施された50項目以上の改善・変更がリストされている。

Search Quality Meeting: Spelling for Long Queries (Annotated)

  1. 数学記号のオートコンプリート
    ローンチコードネーム"Blackboard"。Googleはクエリからオートコンプリートの予測処理を行う際、クエリを正規化してデータベースから関連性の高い予測情報を表示している。今回は “+”, “-”, “*”, “/”, “^”, “(“, “)”, などの数学記号に関する処理を改善し、[e = mc2] や [y = mx+b]など一般的な方程式が検索しやすくなった。
  2. 記号処理の改善
    ローンチコードネーム"Deep Maroon"。Googleは一般的に句読点を無視してきたが、クエリストリームの分析の結果、一般的によく使用される記号、“%”, “$”, “\”, “.”, “@”, “#”, と “+”のインデクシングを開始した。
  3. ニュース記事のグルーピング改善
    ローンチコードネーム"avenger_2"。Googleニュースは類似したニュース記事を分類(クラスタリング)しているが、この順番を決定するスコアリングシステムを改良、クラスタごとに優れたランキングを計算できるようになった。
  4. サイトリンクのデータ更新
    ローンチコードネーム"Saralee-76"。サイトリンクの関連性の高いディープリンクは、サイト構造やその他のデータの分析を通じて決定・生成しているが、このいくつかの部分はオフラインで処理している。オフライン処理によるデータのアップデートを3月に実施しているが、この更新は頻繁に行っているとのこと。
  5. オートコンプリートのバックエンド及びカバレッジの更新
    ーンチコードネーム"sovereign"。オートコンプリートのバックエンド処理を改善し、効率的なCPU使用を実現した。
  6. パスワード変更処理の改善
    パスワード変更した場合にいったん全てのマシンでログアウトできるようにした。
  7. プロフィールページのインデクシング改善
    ローンチコードネーム"Prof-2"。公開プロフィールページをより広範囲に取得し、200以上のソーシャルサイトをインデクシングに納めた。
  8. ユニバーサル検索のニュース記事のUI変更
    プロジェクトコードネーム"Cosmos"。ニュース記事をユニバーサル検索で表示する際のUIを変更。トップ記事のフォントサイズ変更や大きな画像の追加、著者情報の追加など。
  9. ナビゲーショナルクエリの検索結果改善
    ローンチコードネーム"IceMan5"。ナビゲーショナルクエリ(navigational queries)とは、"2ch"や"ANA", "早稲田大学" "Wall Street Journal"など、特定のウェブサイトへのアクセスを目的とした検索のことを指す。今回の変更は、検索利用者が(その目的サイトの)正しいURLを知らない場合や、検索対象がパークドメインの場合に対処した。
  10. ハイクオリティサイトアルゴリズムのデータ更新及び鮮度改善
    プロジェクトコードネーム"Panda"。高品質なサイトを見分けるためのアルゴリズム、「パンダ・アップデート」の更新実施。既報の通り。パンダ・アップデートはオフライン処理で定期的に実施される。今回はデータベースの全体的な鮮度を維持するためのアップデートも実施した。
  11. UEFAとKHLの試合結果ライブアップデート
    検索結果にKHL(ロシアのホッケーリーグ)とUEFA チャンピオンズリーグの試合経過を表示するようにした。
  12. テニスの試合速報検索の追加
    ローンチコードネーム "DoubleFault"。リアルタイムなテニスの試合の結果速報を検索できるようにした。たとえば[maria sharapova] や [sony ericsson open]で検索できる。
  13. ローンチコードネーム "Lice"。画像が掲載されているランディングページの品質判断に用いるシグナルをチューニングし、たとえ低品質なページに掲載されているものであっても、クエリと適合する関連性の高い画像を探し出せるようにした。
  14. より最新の画像検索予測
    プロジェクトコードネーム"Suggest"。全言語が対象。画像検索のオートコンプリートでデータの鮮度を改善し、関連性を高めた。
  15. セーフサーチアルゴリズムの調整
    プロジェクトコードネーム"SafeSearch"。SafeSearchとはアダルト サイトや性的なコンテンツを含むサイトを識別し、検索結果に表示されないようにする機能。いくつかのアルゴリズム調整を実施し、精度を高めた。アダルトサイトの表示頻度をさらに下げた。
  16. アンカーテキスト処理の調節
    ローンチコードネーム"PC"。アンカーテキスト(ハイパーリンク中のテキスト情報のこと)に関する識別子を停止した。実験結果ではこの変更は優れた結果を出した。
  17. 画像ユニバーサルのコードベースの簡素化
    ローンチコードネーム"Galactic Center"。画像のユニバーサル検索のコードをシンプルにして、一般のウェブランキングも改善した。
  18. スマホアプリの検索性能改善
    モバイル端末からアプリを検索する際に、より多くのアプリアイコンやレイティング、価格、ダウンロードボタンなどが検索結果に表示されるようになった。また、検索に使用しているデバイスの種類(iOS / Android)にあわせて、モバイルアプリのランキングを調節するようになった。
  19. ビデオユニバーサルの鮮度改善
    ローンチコードネーム"graphite"。ビデオ検索結果の鮮度を改善した。
  20. 類義語処理の改善
    プロジェクトコードネーム"Synonyms"。Googleは入力された検索クエリと同じ意味を持つ類義語を含むコンテンツも検索結果に表示する。今回はこの識別子を調節し、関係ない類義語が含まれないようにした。
  21. ナビゲーショナル及びローカルインテントを持つクエリの扱い
    ローンチコードネーム"ShieldsUp"。ローカルかつナビゲーショナルの両方のインテントを持つクエリ処理を改善。検索結果に含まれる両者のバランスを調節し、より関連性の高いウェブを見つけられるようにした。
  22. 鮮度改善
    ローンチコードネーム"Abacus"。昨年末に有効なフレッシュネスの改善を実施したが、多大なマシンリソースを消費していた。このため、当時はニューストラフィックのみを対象にロールアウトしていたのだが、今回は全検索クエリに適用した。
  23. サイト品質検出処理改善
    ローンチコードネーム "Curlup"。サイト品質検出のためのシステムを調節し、分類の精度を高めた。
  24. アンカーテキストの解釈及び扱いの変更
    アンカーテキスト処理に関するシステムを変更、検索クエリ及びウェブサイトとアンカーテキストのマッチングを判断する。
  25. Googleニュースのローカライズ関連
    ローンチコードネーム"barefoot"。従来使用していた、ローカル性を判断するシグナルにかえて、類似ロジックの別のシグナルを採用した。ニュース検索やソースのローカルな関連性を改良した。
  26. ニュースクラスタ内のランキングに関するシグナルの廃止
    ローンチ"decaffeination"。Googleニュースの関連性改善に寄与しないあるシグナルの扱いを終了した。
  27. 関係ない単語を類義語と判断しないための処理
    ローンチコードネーム"Gemini"。Googleは類義語を判断するための主なシグナルは、コンテクストである。たとえば、「cat」という単語が「pet」や「furry」「kitten」などの単語の隣に出現する頻度が高ければ、アルゴリズムは「cat」と「kitten」が類似した意味を持つと推定する。この手順の問題は、時として同カテゴリ内の異なるエンティティの単語を類義語にしてしまうことだ。たとえば cat と dog など。こうした間違いを探し出し、最新のシステムはメンテナンス性が高く、更新性もあり、デバッグもしやすく、拡張性も高くなっている。
  28. 類義語精度及びパフォーマンス
    プロジェクトコードネーム "Synonyms"。類義語システムを改善、重複ロジックを排除、異なるコンテクストで異なる類義語候補を持つ単語の処理精度を高めた。
  29. リトリーバルシステムのチューニング
    ローンチコードネーム"emonga"。クエリに含まれる、必ずしも関連性の高い文書を探す時に必要のない単語を検出するシステムを改善、検索利用者が入力した元のクエリに忠実な検索結果を表示。
  30. 積極的な類義語処理の抑制
    ローンチコードネーム"zilong"。類義語検出システムを改善し、オリジナルの検索クエリをより重視するようにした。
  31. 地理データに依存するシステムのアップデート
    ローンチコードネーム "Maestro, Maitre"。Googleは地理データに依存する多くのシグナルを持っているが、そのデータのいくつかをアップデートした。
  32. 名前検出の改善
    ローンチコードネーム "edge"。特に有名人の名前の検出システムを改善した。
  33. パーソナライゼーションシグナルの改善
    プロジェクトコードネーム"PSearch"。検索結果をパーソナライズする際に使用しているシグナルのアップデート。
  34. 画像検索関連性の改善
    ローンチコードネーム"sib"。高品質なランディングページに掲載された、適度なサイズの画像が表示されるようシグナルをアップデートした。
  35. サイトレレバンス判断のための不要なシグナルの排除
    ローンチコードネーム"Freedom"。サイト理解のためのアルゴリズムから、廃止予定のプロダクトフォーカスなシグナルを除外した。
  36. 古いページの検出精度
    ローンチコードネーム"oldn23"。サイトのレレバンスシグナルを重視することで、更新されない、古いページを検出するシステムを改善した。
  37. オートコンプリートにおける言語検出機能の調整
    ローンチコードネーム“Dejavu”。オートコンプリートは基本的に画面表示に設定している言語に依存してクエリの予測を行っている。今回のアップデートは、中国語(簡体字及び繁体字)、日本語、韓国語にも対応。これらの言語利用者が、IMEをオフにするのを忘れて英単語を入力しようとしている時、Googleはそれが英語であると判断して予測できるようにした。
  38. ブログやフォーラムの投稿・公開日時検出の改善
    ローンチコードネーム"fibyen"。フォーラムやブログページから、その投稿日時を検出するアルゴリズムを改善した。
  39. オートコンプリートの予測拡張
    ローンチコードネーム"Lombart"。クエリの一部をリアルタイムでリライトして、より多くの可能性のある予測単語を表示するようにした。類義語やその他の機能を使って最適にする。書き換えるプリフィックスは、順番や単語追加及び除外。
  40. モバイルにおけるサイトリンクの拡張
    既報の通り、スマホ版Googleでサイトリンクの表示形式が変更された。
  41. ショートアンサー機能の改善
    プロジェクトコードネーム“Porky Pig”。ショートアンサー機能(坂本龍馬の誕生日といった、シンプルに回答できるものを検索結果のスニペットにソースと併記する機能)を支えるソースをアップデートし、Freebaseのデータを活用、正確さを向上するとともに、バグフィックスを容易にした。
  42. ビデオアドバンスト検索のバックエンドマイグレーション
    ビデオ検索のアドバンストサーチ機能を支えるバックエンドを主要サーチインフラに移行した。
  43. Google +1ボタンのグローバル展開
    Google+1ボタンを国際化し、より多くの言語とドメインの検索結果に対応。
  44. タブレット端末でのローカル検索結果のUI改善
    タブレットからGoogleを利用した時のローカル検索結果表示のUIを変更、コンパクトでざっと見渡しやすくした。
  45. フライト検索の拡張
    既報の通り、米国外500以上の空港の路線・航空便検索に対応した。
  46. SSL暗号化による検索保護、全世界に拡大
    既報の通り、
    日本も含めて全世界で検索がSSLで保護されるようになった。
  47. Windows 7.5搭載端末向けのアプリ検索のデザイン
  48. iGoogleのフルページテーマ
  49. NCAA検索機能
  50. 数式グラフ表示3D対応 3次元グラフを表示できるようになった。

Search quality highlights: 50 changes for March
http://insidesearch.blogspot.jp/2012/04/search-quality-highlights-50-changes.html

#
ざっと訳しただけなので細かいところは後で修正します。類義語関連のシステム変更多いね。


[追記 2012/04/05 13:50]

類義語関連処理の変更が多いですね。類義語関連のアップデートのみ取り出してまとめると、次の通り。

類義語関連のシステム変更内容一覧 (2012/03)

※ 上記一覧に挙げたものをピックアップしていますが、日本語に手を加えています
  • [類語を持つウェブページの抽出判定] 従来、ユーザーが入力した検索クエリと同じ意味を持つ類語を検出し、それを含む役立つウェブページも検索結果に含めて表示してきた。3月にこのウェブページを選択するシグナルを調節し、役に立たない(関係ない)ウェブページが検索結果に含まれないようにした。
  • [類語選択の変更] 同じカテゴリに属するが、意味が全然違う言葉同士が類語判定されないようにした。たとえば、"cat" と "dog" が類語と判断しないようにする。
  • [類語選択システムの改善] 類語関連システムに含まれる重複したロジックを排除してパフォーマンスを改善。文脈によって異なる類語候補が存在しうるケースでも正しい類語を選択できるアルゴリズムを導入した。
  • [積極的すぎる類語判定の抑制] 1点目で触れたように、Googleはユーザーが入力したクエリを含む文書だけでなく、それと同様の意味を持つ類義語が含まれ、かつ役立つだろうウェブページも検索結果に表示してきた。しかしユーザーからのフィードバックによると、この類語処理が過剰に機能しすぎて(無関係な検索結果が含まれるケースもあるので)この機能を少し抑え気味にして、タイプされた文字(クエリ)をより尊重するよう調節した。




記事カテゴリ:Google 2010-2019, サーチニュース 2012
他の検索・SEO 関連の記事
新刊:ネットショップSEO 2014発売されました(2014年5月)
Google「パーソナライズ検索による劇的な検索順位変動は都市伝説」と説明
Google、カナダでローカルサービス広告を提供開始
グーグルとディズニーがデジタル広告分野で提携
Googleインド、モバイル検索でカバディの試合情報を表示する機能追加
goo, 2018年検索ランキングを発表、人物の1位は「羽生結弦」など
ロシアYandex、検索アップデート「アンドロメダ」を発表
Microsoft Bing、年末商戦にあわせてショッピング検索機能を強化
米Google、検索結果にユーザーがコメントを投稿できる機能を準備
プライバシーを守る検索エンジン DuckDuckGo、検索回数3,000万/1日 突破
ペンス米副大統領、中国市場向け検索アプリ開発の中止を求める
「SEMリサーチ」トップへ戻る




免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。