米 が書籍の文章を対象とする全文検索サービスを開始しましたが、どうやって12万冊以上の書籍全文をデータに取り込んできたのか気になった方はいませんか?

USA Today 誌にAmazon.comの書籍情報のデジタル化の過程についての説明がありました。3,300万ものページを全部スキャンしてイメージ化して保存、その上で検索エンジンで参照・アクセス可能なテキストに変化したのですね。10年前には実現不可能だったそうで。

It took a bold stroke for Amazon, the world's largest online retailer, to make the new service available. First, it had to scan 33 million book pages into an image archive, in some cases manually tearing pages from bindings to run through a scanner, in others, shipping caches of books to scanning centers in India and the Philippines.

Udi Manber, Amazon's vice president of search algorithms, then used processing power borrowed from the company's backup computers to convert the images into text data that could be cross-referenced and accessed by a custom-built search engine. "Ten years ago, this was all science fiction," says Manber.


Amazon opens pages to perusal [USA TODAY / Posted 10/26/2003 10:35 PM]

[関連]、全文検索サービス"Search Inside the Book" を導入


COPYRIGHT © 1997-2021 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.