米Googleは2012年5月4日、検索アルゴリズムや機能の更新内容を伝える月例の「Search quality highlights」を公開した。4月に実施された50項目以上の改善・変更がリストされている。
言語・地域の関連性 (Regional Relevancy)
- 言語との関連性を強化したナビゲーショナルな検索結果の表示
ローンチコードネーム"Raquel"。ユーザーが特定サイトへの訪問を目的とした検索、いわゆるナビゲーショナルサーチにおけるアルゴリズムの改善。ユーザーが bol.com といったウェブアドレスで検索をした際に、従来 Google はそのアドレスをオーガニック検索のトップに表示してきた。しかしこの方法は必ずしも言語によっては適切な回答にはならなかった。たとえば、bol.com はオランダ語のページであるが、実際のユーザーはポルトガルで検索しており、その目的はブラジルの電子メールサービスである。今回の変更は、ナビゲーショナルサーチに対する検索結果を決定する際に、その言語を考慮するようにした点である。 - ウェブページの国識別・判定の強化
ローンチコードネーム"sudoku"。ロケーション(位置情報)は特定の国に関連したコンテンツを検索結果に表示する上で重要なシグナルである。従来Googleはこのロケーション識別をウェブサイト、サブドメイン、ディレクトリ単位で行ってきた。今回、この精度を高めて、特にUGCサイトの(ロケーションを)ページレベルで識別できるようにした。たとえば、あるコンテンツはフランスと関連性があると判断するが、同一サイトでもまたある別のページをスペインと関連性があると判断する。 - ローカルな組織サイトの検索結果表示
プロジェクトコードネーム"ImpOrgMap2"。検索利用者の国・地域にある組織のサイトを表示する。たとえばメキシコでcnnと検索した時にはmexico.cnn.comを表示する。 - 特定国・地域のナビゲーショナルサーチの改善
ローンチコードネーム"onebar-l"。ナビゲーショナルサーチで特定の地域をクエリとして含む場合、その国・地域の目的サイトをできるだけ表示する。仮にその目的サイトが当該地域に言及していない場合でも検索結果に表示する。 - ローカルクエリの包括的な予測機能
プロジェクトコードネーム"Autocomplete"。オートコンプリート予測をより包括的にした。これは、予測範囲を米国のロングテールなクエリ、たとえば住所や小企業のクエリまで拡張することにより実現。
検索クエリの予測・スペルミス修正関連
- 不適切なスペル修正提示の改善
検索クエリに間違いがないのにスペル修正を提示してしまうことは適切ではない。たとえばmango tea と検索したユーザーにたいし、スペル修正としてmint tea といった提示をしてしまうケースだ。今回、アルゴリズムを修正し、こうした不適切なスペル修正提示を行わないようにした。また、これに関連するアルゴリズムの1つは国際対応させた。 - <スペルコレクションの国際対応および対応言語数の増加
ローンチコードネーム"pita"。英語圏ではオートコンプリート機能によりユーザーが検索クエリのタイピング中でも修正してきた。これを新たに60言語に対応させた。/li> - 長い検索クエリにおけるスペル修正追加
ローンチコードネーム"caterpillar_new"。検索クエリが10ワード以上で構成されているような場合でもスペル修正が行われるようになった。 - 「次の検索結果を表示しています」の明示と国際化
ローンチコードネーム"ifprdym"。たとえばpnumaticとミススペルで検索した時に、実際の検索結果が正しいスペルであるpneumaticのものである場合がある。こうしたケースでGoogleは従来、それを明示したUIを用意していなかったが、今後は英語検索時に明確に表示するようにした。また、この機能は他の言語に展開予定である。 - 「もしかして」国際対応
ローンチコードネーム"idymsup"。「もしかして」(Did you mean ?)機能は正しいスペルを予測して提示しているが、実際にそれをクリックしても検索結果が同じために役に立たない場合がある。Googleが元の検索クエリから本来の意図をくみ取って検索結果を修正するためだ。今回の修正は、もしかしてを表示する前にそのスペル修正がユーザーに役立つかどうかをチェックするように変更した。このアルゴリズムは現時点で英語に導入済みだが、現在他の言語に展開している最中だ。 - スペリングモデルのリフレッシュの品質改善
スペリングモデルをリフレッシュし、27言語での品質改善を実施。 - 低品質結果に導くオートコンプリート予測の修正
ローンチコードネーム"Queens5"。低品質な検索結果に誘導してしまうオートコンプリート予測を行わないように修正した。
タイトルとスニペット関連
- 効率的な代替タイトル生成
Googleは検索結果に表示するタイトル生成に様々なシグナル(手がかり)を用いているが、このプロセスを効率的にし、品質を下げずにCPUリソースの大幅な節約に成功。 - より正確で有益なタイトル表示
Googleは検索結果のタイトル表示決定時に様々な要因を見ているが、より正確で有益なタイトルを表示するように変更した。 - スニペットの生成方法変更
ローンチコードネーム"DSS"。スニペットの生成にかかわるシステムを変更し、他のインフラストラクチャ改善との一貫性を維持した。この変更により単純化するとともにスニペット生成プロセスの一貫性も向上させた。 - スニペットをページ先頭部分のテキストから抽出・生成
ローンチコードネーム"solar"。スニペット生成時に、特に関連性が高い場合はページの冒頭部から抽出・表示するように変更。
検索システム・レリバンシー系
- より信頼できるサイトの検索結果表示
シグナルを調節し、より権威ある、重要度の高いコンテンツを検索結果に表示できるようにした。 - 適切なクエリ解釈
直前のクエリ履歴情報と組み合わせた、検索クエリのインテンション(検索意図)解釈の改善。 - 検索クエリのスコアリング方法の変更
ローンチコードネーム"Bi02sw41"。Googleが検索時に使用するもっとも基本的なシグナルの1つは、検索クエリがページ内にどのように出現しているかを判断することであるが、今回はこの単語のスコアリング方法を変更した。 - ベースインデックスのサイズを15%増加
プロジェクトコードネーム"Indexing"。ベースサーチインデックスは検索結果を配信するための主要なインデックス、Googleサーバに送信されてきたあらゆるクエリがこのインデックスを参照する。このインデックスが配信するドキュメント数を15%増加した。なお、Googleは常に様々なインデックスのサイズをチューニングしているため、必ずしもこのブログで言及されるわけではない。 - 新しいインデックス層
ローンチコードネーム"cantina"。我々はサーチインデックスを複数階層にしており、様々なドキュメントが、それがユーザーにとってどれだけ関連性があるかを基準に様々なレートでインデックスされている。新たにインデックス層を追加し、検索結果の包括性をサポートしていく。 - ニュースのユニバーサル検索結果の改善
統合システムアーキテクチャにシフトしたことにより、ニュース検索結果の掲示を効率化した。 - ドメインレベルの多様性の改善
プロジェクトコードネーム"Domain Crowding"。同一ドメインからあまりに多くの検索結果を表示してしまう問題を修正。この変更により、より多くの多様なドメインから関連するコンテンツを検索結果に表示する。 - 最新検索結果を表示するためのランキング精度改善
ローンチコードネーム"sep"。Googleは特にニュース速報やトピックといった重要な新しいコンテンツを求める検索に対し、最新の検索結果を表示するよう努めている。今回、この精度を高めて、鮮度に基づいた、より微妙なランキング変更を実施した。 - 鮮度判定シグナルの処理改善
ローンチコードネーム"citron"。鮮度判定のシグナル処理に小さな改善を施し、最新ドキュメントをより適切に識別できるようにした。 - 最新検索結果から低品質コンテンツを排除
ローンチコードネーム"NoRot"。最新コンテンツを表示する際に用いる識別子を変更し、特に低品質と判断できる最新コンテンツを除外できるようにした。 - ニュース速報やトピックのUI改善
ニュース速報や最新トピック検索時のニュース検索結果のUI変更。より大きなイメージサムネイルが2つの最新ニュースと共に表示される。 - 検索結果配信のバックエンド改善
配信システムを改善し、よりコンピューティングパワーを節約し、コードを大幅にシンプルにした。 - 高品質なサイトを検索結果に表示するための取り組み
ペンギン・アップデート。ウェブスパムで検索順位を操作しているサイトの識別と検索順位の調整。
その他
- 拡張されたサイトリンクによるサブサイトリンク
通常スニペットのかわりにサブサイトリンクを表示することで、メガサイトリンクに。 - 拡張サイトリンクの適切な順序づけメガサイトリンクの順位付けを変更。サイトリンクで表示するURLを、通常ランキングに用いるスコアに基づいた最小スコアを付与することで順序を決定・改善。
- サイトリンクデータのリフレッシュ
サイトリンクはある程度オフラインで処理されており、サイトストラクチャや他のデータを分析して最も関連性の高いリンクを表示するようにしている。このデータをアップデートした。 - 拡張サイトリンクにおける重複スニペットの排除
拡張サイトリンクで重複したスニペットが表示されないようにした。 - キーワード詰め込み識別子
キーワード詰め込みスパムをしているページの識別改善。 - ページネートされた文書の分類
プロジェクトコードネーム"CategorizePaginatedDocuments"。ページ分割されたひとつながりのコンテンツの分類方法の改善。検索結果がある1つのシリーズを構成するページで占拠されるのを防止し、より多様な検索結果を表示する。 - 日本語・韓国語のエラーページ識別子追加
(サーバ側で返すハード404ではなく)ソフト404を返してくるページを識別できるようにした。ユーザーがこうした404ページを探していることはまれであるため、このエラーページ識別は重要である。今回は日本語および韓国語のソフト404エラーの識別に対応した。 - ビデオおよびイメージ検索におけるセーフサーチ改善
セーフサーチのシグナルを改善し、ビデオ検索やイメージ検索でアダルトコンテンツが表示されないようにした。 - セーフサーチモデルの改善
セーフサーチで用いるカテゴライズのための識別子を改善し、40言語に対応。 - ロシアでのセーフサーチシグナル改善
ロシア語で検索した時に(セーフサーチ有効時に)アダルトコンテンツが表示されないよう修正。 - インスタントプレビューの動作調整
インスタントプレビューが作動するトリガー条件を厳しくした。検索結果右側のアイコン上にマウスホバーして停止させるまで表示しないようにした。 - アンカーバグの修正
プロジェクトコードネーム"Anchors"。アンカー処理に関するバグ修正。 - 日出・日没検索の国際対応
プロジェクトコードネーム"sunrise-i18n"。日の出・日没検索機能を新たに33言語に対応。 - トルコの通貨換算検索を改善
ローンチコードネーム"kur”。トルコの通貨換算検索機能を改善。 - セルビアのニュースクラスタリング改善
ローンチコードネーム"serbian-5。Googleはニュース検索表示時に、同類のニュース記事を1つのグループにまとめる(クラスタリング)している。今回の変更はキリル文字やラテン文字で書かれたニュースのクラスタリング改善。 - 公共データ検索の改善
公共データ検索のトリガー改善。人口データや失業率データを返す検索クエリ範囲を拡張。 - 中国・韓国・日本のモバイル検索に映画検索追加
映画上映検索が日本、中国、韓国のモバイル対応した。 - MLB検索機能
MLBが開幕したのに伴い, 新しいMLB検索機能をリリースした。 - スペインサッカー検索機能
スペインサッカーの検索対応。 - F1検索対応
F1の情報検索できるようにした。 - NHK検索の調整
HNL検索改善。 - HTML5リソースキャッシング
検索結果の異なるコンポーネントのキャッシングを改善し、遅延解消した。
Search quality highlights: 53 changes for April
http://insidesearch.blogspot.jp/2012/05/search-quality-highlights-53-changes.html