SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

DeNA WELQ と検索技術の課題

DeNA の WELQ の件で人と会う度に見解を求められるので、ざっと述べておきます。やっぱり関心高いですよね。

デタラメの医療記事とスパム的手法によるコンテンツ量産

医学についての専門知識を持たない一般ユーザーが執筆した、正確性に疑問が残る医療系記事を大量に公開し、SEO を駆使して関連するあらゆる検索クエリで検索上位に表示させていました。病気や症状について検索するユーザーを不必要に不安にしたり、生命を危険に晒すような情報は公開すべきではないでしょう。ましてや SEO を悪用してトラフィックを稼ぎ金儲けのために使っているのであれば論外です。炎上の末に最終的にサイトを閉鎖しましたが、仮にそのまま公開が続いても、Google が(今回なら医療・健康系クエリが対象になるでしょうか)アルゴリズムを調整することになったと思います。

パクリ&リライトによるコンテンツ生成の問題

(パクリ&リライトという方法自体はビジネスとして私は支持しない、という前置きをしたうえで)医療記事の信憑性の問題とは別に、ネットで批判が続いているのがパクリ&リライトによるスパム的なコンテンツ大量生産の問題です。キュレーションメディア全体を批判する意見や、キュレーションコンテンツだから検索結果から排除せよといった意見もみかけられますが、極端すぎます。

コンテンツの生成過程の問題と、出来上がったコンテンツの有用性の問題は分けて考える必要があります。

たとえば「死ぬまでに一度は訪れてみたい世界の名所○選」や「北九州に訪れたら必ず行ってみたいお店○選」といったコンテンツは、パクリとリライトを経て作成されたものであれ、それを閲覧するユーザーにとってはそれなりに役立つことが多々あるのです。

特定条件の推薦情報というものは、本当に良いお店やスポットは誰が書いても含まれるでしょうし、こういった記事を見たいユーザーは、数多くの選択肢から、とりあえず有名なところ、知られているところに、カジュアルに絞り込みたい程度のニーズです。こうしたニーズは、誰かが書いた記事のリライト程度の内容でも十分に役に立ってしまいます。

つまり、知りたいという瞬間(Micro-moment)が発生した文脈により、そこで必要とする情報の量と質は異なります。いつも高度に専門的な情報をほしいわけではないのです。WELQ の場合はどのような場面であれ、医療情報に深刻な間違いがあれば生命に危険が及ぶので論外ですが、「近くに美味しいお店ないかな」「どこか海外に行きたいなー」程度の知りたいニーズなら、リライト程度の情報で満たされます。

ところで Google が評価する対象は、コンテンツが作成された過程ではなく、コンテンツ自体の有用性です。だから「キュレーションメディア(=パクリとリライトで完成した記事)だからすべてゴミだ」とは言えませんし、検索結果から排除することはかえってユーザーの利益を損ないかねないのです。

著作権侵害や薬事法違反の恐れがあるなど法律に抵触する場合は対処できますが、コンテンツロンダリングによって少なくとも法的にも、Google 基準をクリアした記事は対処が難しいのです。

情報アクセスのプラットフォームとして、検索各社は医療・健康情報の正確性や信頼性についてどのような取り組みを行っているの?

別記事「検索エンジン各社の医療情報検索への取り組み」で解説している通り、Google, Bing ともに健康・医療系の検索の課題は認識しており、各社それぞれ検索品質改善に努めています。Google はナレッジパネルに掲載する情報は専門家のレビューを通していますし、表示するイラストも専門家が作っています。アルゴリズム検索の Google ですら、医療・健康情報にはきちんと人間の審査を通す努力をしています。

現状のところ各社共通しているのは、検索結果のもっとも目立つ場所に、審査済みのコンテンツを掲載している点です。

関連:"自殺推奨サイト"が検索上位を独占 - 「自殺予防サイトのアクセシビリティ向上を」

ユーザーが任意で検索結果をカスタマイズする機能を Google が提供すればいいじゃない?

Google はかつて、ユーザーが好みにあわせて検索結果をカスタマイズできる機能を提供していたことがあります。たとえば自然検索順位を変更したり、表示されるべきページを自分で追加できる SearchWiki や、ユーザーが信頼するサイトを優先的に表示する Preferred sites、同じく検索結果に非表示にできる Chrome 機能拡張 Personal Blocklist といったプロダクトです。

こうしたサービスが存在していたら、DeNAパレット運営のドメインをすべて自分の検索結果から排除したり、信用できる医療機関の情報サイトをあらかじめ登録することで、ユーザー自身が検索結果からゴミを取り除くことができたわけです。すばらしい解決策じゃないか!・・・と思うかもしれませんが、残念ながらサービスはすべて終了しています(Personal Blocklist は利用は可能だがサポートはされない)。

インターネット検索の歴史が証明している事実の1つは、世の中の大半のユーザーは検索結果のカスタマイズや装飾にまったく関心がないということです。Google 以外の会社の類似サービスも含め、ほぼ全て「利用者が想定より少なかった」趣旨の理由で閉鎖しています。Wikipedia創設者のJimmy Wales が立ち上げた Wikia Search も結局1年あまりで行き詰まって終了しました。当時(2008年前後)はユーザーの手で検索結果を作るエディトリアル検索(Editorial Search) が注目されましたが、3年も立たないうちに絶滅しました。検索サービスは「いまほしい情報を得る場所」であって、長くそこに滞在して自分で編集する場ではないからでしょう。モバイルが主要なデバイスになった今日は、なおさら検索結果をカスタマイズする機能など求められないと思います。

A.I.ファーストの時代、モバイル検索から、スクリーンのないハンズフリー/アシスタントとの会話による情報アクセスの時代を見据えたら、なおさら正確な回答を提供する機能は Google が技術革新で実現すべき課題だと、同社自身が考えていると思います。

関連して、検索結果の各リンクにポジティブ/ネガティブを投票するような機能をつけたらいいんじゃない?というアイデアもあるかもしれません。しかしネガティブなフィードバック機能は商用インターネット検索ではまったく有効に働きません。ネガティブなシグナルは、競合他社や嫌いなサイトを蹴落とすなど、第三者によって悪用されることが明白だからです。

Google 検索結果の汚染問題

Google 検索結果がスパムで汚染されているという問題は、同社が PageRank 技術を大々的に打ち出してマーケティングをした時から始まった問題です。PageRank は画期的な仕組みと認知されましたが、同時に、PageRank を操作するためのスパムリンク生産の需要を生み、そのリンクを設置するためのスパムコンテンツ量産が求められるようになりました。この時から検索結果の汚染は始まったのです。

内容が空っぽのキーワード(用語集)サイト、あらゆるキーワードでタギングページがヒットしたブログメディアの米Technorati、キュレーションの NAVERまとめ、2chまとめサイト、後述する米Demand Media など枚挙に遑がありません。

Google は当時からスパムとそれによる検索品質の低下を問題視しており、アルゴリズムの改良や優れた検索アルゴリズム技術の開発に取り組んで来ました。スパムリンクが特に増加した2004年以後は、公式ブログで繰り返し人工リンクに対する意見を表明したり、実際に不正なリンクで検索順位を操作するサイトの順位を手動で調整するといった対策をしてきました。

最近では 2010年の Demand Media によるコンテンツファーム問題が注目されたときに、欧米メディアを中心に検索結果の汚染が指摘されました。一部のジャーナリストが Google を激しく批判していましたが、それに対する回答がパンダアップデートでした。

クラウドソーシングを活用して、人間の手による編集(笑)を経たコンテンツが検索結果を占拠している問題は、日本に限ったお話ではありません。英語圏でも、相変わらずどうでもいいハウツー記事を大量生産したスパムメディアが一部のキーフレーズで検索結果を占拠しています。こうした状況を踏まえて Google も対応を検討していると思います。

ただし、人間の手を経由してキュレート(笑)されたコンテンツをただ評価を下げることは先述した理由により合理的ではありません。「人間の目で見て役立つ、役立たない」をアルゴリズムで自動的に判定するのは、WELQ のでたらめで間違いだらけの記事すら上位に表示していた事実が、現状は無理だということを示しています。

コンテンツの評判や信憑性を推し量る方法として、執筆者の評価を利用するというアプローチはあります。執筆者の専門性や評判の手がかりがあれば、当該人物が書いた情報を評価する際の参考になるからです。Google はかつて Authorship の仕組みを展開してそれを実現したいと考えていたのですが、それを支えるソーシャルグラフのデータとなる Google+ が廃墟と化しておりプロジェクトを進めようがありません。関係ありませんが、Google は本当にソーシャル系サービスが下手くそですよね。AI ばかりが参加しているコミュニティ作らせたら凄いのができそうですけど。

情報の信頼性や評判を適切に判断するには、技術革新を待たなければなりません。

Google カスタム検索で医療系専門検索サイトを作成すればいい?

検索結果の汚染問題に注目が集まると、必ず誰かが作成してくれるのが Google カスタム検索を使った専門検索エンジンですが、これまた過去の歴史で上手くいかないことが証明されています。

医療系の場合、医療情報系サイトを選別しすぎると検索のカバレッジ(検索対象範囲)が失われ、検索クエリにたいして十分な関連性ある情報が表示されなくなってしまうという実用上の問題があります。これを解決するためには「検索するときのクエリをユーザー自身が工夫する」か「検索対象ドメインを広げる」のいずれかになりますが、前者は平均的な検索ユーザーには難しすぎるのです。自分がほしい情報を得るためのクエリを探すって、ハードル高いんです。Google がオートコンプリート(検索候補を自動的に表示する機能)をつけているのは、そういう理由もあるのです。

後者の検索対象範囲の拡大は、ノイズも増えてしまいます。また、適切な検索対象は常にカスタム検索のメンテナンスが求められるのですが、カスタム検索って大抵、メンテされないんです。公開した人自身がその存在を忘れてしまうからです(笑)。この情報を探すならこっちのカスタム検索、あれはこっち・・・とカスタム検索の数が増えれば増えるほど面倒くさいので誰も使わないですし。

さらにいうと、医療機関の情報発信が貧弱な日本の現状では、探している情報の絶対数が少なすぎて検索の課題を解決できない可能性もあります。以前、椎間板ヘルニアの手術をしたときに、術後のケアやリハビリについて検索したことがあるのですが、情報の数自体が少なくて困ったことがあります。

かつて Microsoft や Yahoo! も、カスタム検索相当の機能を提供して「検索の民主化」を図ろうとしたことがあります。ユーザー自身が適切に検索エンジンをカスタマイズして、ネット上で広く共有すればより良い検索サービスが作れる --- そういう理念で公開されたことがあるのですが(2006〜2009年頃)、すべて Google に駆逐されて現在に至ります。

医療機関がもっと自社サイトの SEO をがんばればいい?

海外の公的な医療関係機関は「正しい医療情報を、必要なひとへ、必要なタイミングで届けることを使命」として、SEO を考慮してサイト運営しているところが少なくありません。自然環境保護や人道支援関連といったサイトも、検索によるファインダビリティ(情報発見のしやすさ)に取り組んでいるところがあります。誤解がないように正確に説明すると、検索エンジンフレンドリー(マシンリーダブル)を徹底しているということです。検索は単なる販促手段ではなく、コミュニケーションや情報伝達のプラットフォームとして重要であると認識されていることが背景にあります。

日本ではそういった社会貢献のための情報発信の強化をしようとする公的医療機関はまだ圧倒的に少数派です。SEO に力を入れているところは病院の経営改善自体が目的にしているのです。

話がそれますが、日本の公的機関はウェブの情報発信はしても、それを届けることに無頓着すぎます。米国でオバマ大統領が就任した後にホワイトハウスが SEO を強化したり、五輪公式サイトや米大統領選も、SEO はデジタルマーケティングの1つとして組み込まれていますが、こういった活用法は日本では皆無に等しいです。

クラウドソーシングがスパムを支える構造の問題

悪用されたくないので曖昧な表現に留めさせて頂きたいのですが、クラウドソーシングのサイトで案件を見ていると、業界関係者ならニヤリとするような、検索エンジンスパム目的の仕事依頼が見つかります。検索サイト上で何らかの”調査”を依頼する案件は、検索エンジンスパムへの協力依頼を疑ってよいでしょう。

Google はクラウドソーシングを活用したスパムに極めて脆弱です。クラウドソーシングは、不特定多数のユーザーに日時をずらして特定のタスクを依頼することで、機械的な特徴を排除できる利点があるからです。純粋な一般検索ユーザーと、特定企業の依頼を受けて検索するユーザーを見分けることは簡単ではありません。

2000年代はリンクスパムが問題でしたが、2010年代はコンテンツスパムにシフトしています。そして、コンテンツの大量生産を支えるのも、そのコンテンツがあたかも良いコンテンツであるように騙す手法も、安価にかつ効果的にそれを実行出来るクラウドソーシングが支えてしまってるのが現実です。

Google はどうやって解決していくのでしょうか? 

COPYRIGHT © 1997-2021 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

お問い合わせ(お仕事の相談、講演依頼など)

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。