風柳メモ

ソフトウェア・プログラミング関連の覚書が中心

Amazon.co.jpの正規化URLの構造を調べてみた

承前

【amzRememberOptions】Amazon.co.jpで検索のカテゴリー&並び替えオプションを保存するユーザースクリプト試作 - 風柳メモ

Amazon.co.jpで著者検索 - Hatena::Let

これらを作る前後にて、Amazon.co.jp の正規化URL(link[rel="canonical"] の href 値)等について調べてみたことの覚書。
きちんと検証しているわけではないので注意。誤り等あった場合はご指摘願う。

個別商品ページ

正規化URLの構造
http://www.amazon.co.jp/[商品名]/dp/[ASIN]
  • [商品名] はエンコードされている。また、"[商品名]/"の部分は省略可。

検索ページ(カテゴリー指定)

正規化URLの構造
http://www.amazon.co.jp/[キーワード]-[カテゴリー名]/s?ie=UTF8&page=[ページ番号]&rh=[第1要素],k:[キーワード]
  • [キーワード]および[カテゴリー名] はエンコードされている。また、"[キーワード]-[カテゴリー名]/" の部分は省略可。
  • “すべてのカテゴリー”で検索する場合、"-[カテゴリー名]"の部分は入らない。
  • [第1要素]は、カテゴリー名が“すべてのカテゴリー”の場合には、"i:aps"固定、それ以外は"n:[BrowseNode]"が入る。
  • 絞り込みを行うと、rhパラメータに「,[第3要素],[第4要素]…」というふうに追加されていく。
    各要素は“p_*:*”といった形式のようだが、詳細は不明。
BrowseNode一覧
カテゴリー名 search-alias BrowseNode
Kindleストア digital-text 2250738051
Amazon インスタント・ビデオ instant-video 2351649051
デジタルミュージック digital-music 2128134051
Androidアプリ mobile-apps 2381130051
stripbooks 465392
洋書 english-books 52033011
ミュージック popular 561956
クラシック classical 701040
DVD dvd 561958
TVゲーム videogames 637394
PCソフト software 637392
パソコン・周辺機器 computers 2127209051
家電&カメラ electronics 3210981
文房具・オフィス用品 office-products 86731051
ホーム&キッチン kitchen 3828871
ペット用品 pets 2127212051
ヘルス&ビューティー hpc 160384011
コスメ beauty 52374051
食品&飲料 food-beverage 57239051
ベビー&マタニティ baby 344845011
服&ファッション小物 apparel 352484011
シューズ&バッグ shoes 2016926051
腕時計 watch 324025011
ジュエリー jewelry 85895051
おもちゃ toys 13299531
ホビー hobby 2277721051
楽器 mi 2123629051
スポーツ&アウトドア sporting 14304371
カー・バイク用品 automotive 2017304051
DIY・工具 diy 2016929051
大型家電 appliances 2277724051
クレジットカード financial 2320455051
ギフト券 gift-cards 2351652051

SearchIndexとBrowseNode一覧 - 前人未踏の領域へ等を参照するに、BrowseNodeはProduct Advertising APIで使用されているものと共通だと思われる。

検索ページ(著者名等指定)

正規化URLの構造
http://www.amazon.co.jp/[カテゴリー名]-[著者名等*]/s?ie=UTF8&page=[ページ番号]&rh=n:[BrowseNode],[第2要素名]:[著者名等]

  • [カテゴリー名]および[著者名等]はエンコードされている(PATHに含まれる[著者名等*]の方は、スペースが'-'に変換される模様)。また、"[カテゴリー名]-[著者名等*]/" の部分は省略可。
  • [BrowseNode]および[第2要素名]の組み合わせの例は次表参照。

    search-alias フィールド名 BrowseNode 第2要素名 備考
    (任意) field-keywords (任意) k キーワード
    books-jp field-author 465392 p_27 著者(和書)
    books_us field-author 52033011 p_27 著者(洋書)
    music-artist field-artist 561956 p_32 アーティスト


  • 絞り込みを行うと、rhパラメータに「,[第3要素],[第4要素]…」というふうに追加されていく。
    各要素は“p_*:*”といった形式のようだが、詳細は不明。

著者ページ(アーティスト等も含む)

正規化URLの構造
http://www.amazon.co.jp/[著者名]/e/[ASIN(?)]
  • [著者名] はエンコードされている。また、"-"一文字に置換可能。
  • [ASIN(?)] は著者毎に割り振られた一意の記号番号だと思われる。