SEMリサーチ

SEMリサーチ

Amazon.com、書籍全文検索サービスをどのように構築したか

米Amazon.com が書籍の文章を対象とする全文検索サービスを開始しましたが、どうやって12万冊以上の書籍全文をデータに取り込んできたのか気になった方はいませんか?

USA Today 誌にAmazon.comの書籍情報のデジタル化の過程についての説明がありました。3,300万ものページを全部スキャンしてイメージ化して保存、その上で検索エンジンで参照・アクセス可能なテキストに変化したのですね。10年前には実現不可能だったそうで。

It took a bold stroke for Amazon, the world's largest online retailer, to make the new service available. First, it had to scan 33 million book pages into an image archive, in some cases manually tearing pages from bindings to run through a scanner, in others, shipping caches of books to scanning centers in India and the Philippines.

Udi Manber, Amazon's vice president of search algorithms, then used processing power borrowed from the company's backup computers to convert the images into text data that could be cross-referenced and accessed by a custom-built search engine. "Ten years ago, this was all science fiction," says Manber.

[Source]

Amazon opens pages to perusal [USA TODAY / Posted 10/26/2003 10:35 PM]

[関連]

Amazon.com、全文検索サービス"Search Inside the Book" を導入

Google、書籍全文検索サービスの構築に着手

COPYRIGHT © 1997-2020 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。