スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
  1. --/--/--(--) --:--:--|
  2. スポンサー広告

Jane Doe Styleのキャッシュvchファイルの重複を調べてみた

Jane Doe Styleのキャッシュvchファイルの重複を調べてみた。

方法と概要

vchファイルの最初の4バイトがvchヘッダサイズを示している。ファイルの先頭からヘッダサイズ+4バイトを除いた部分のMD5ハッシュを用いて同じデータが存在するかチェックしてみた。

つまり、異なるURLのキャッシュだけど、実は中身が全く一緒というのを検出する。

たまにヘッダだけで中身がないものがある。おそらくグロ、ブラクラなどの理由で削除したキャッシュファイル。それらは処理から外した。

結果

ファイルが多いので結構時間がかかる。徐々に重複ファイルが見つかっている。

プログラムミスとMD5の衝突がないなものとする。プログラムが正しいか調べてません。MD5なしで比較したら時間かかりすぎてしまうし。

71,110ファイル中6,479ファイルが重複。
重複率9.1%

雑記

本当は、画像として同一、画像としてほぼ同一、サイズが違うだけ、そっくりだけど違うもの、ExIf情報が違うだけとか検出できたらいいんだけど。

重複率9.1%か。予想はしていたものの同じファイルの再アップロードしたものを何度もダウンロードしているんだな。

できれば、重複しているペイロード(ヘッダじゃない部分)を一つのファイルにまとめ、それでいてJane Doe Styleは今まで通り問題なくどのURLでもキャッシュを取り出せたらいいんだが。

とはいうものの、どうやら最近は500GBのHDDが1万円くらいだから、どーってことないか。

このままvchファイル溜めていけばMD5の衝突が起きる?

Vistaになってエクスプローラが使いにくくなった部分があるんだが、ファイルが多いディレクトリを開いてもフリーズしなくなった点はいいな。

たぶんWindows XPで1つのディレクトリに1万ファイルあるとエクスプローラがしばらくとまってしまう。おそらくそれは、ファイル数とか調べ、ファイル名順に並べ終わってから、表示するので待たされるのだろう。

Vistaではすぐに表示される。そしてファイル数並び順が後で変わる。

  1. 2008/03/15(土) 21:09:40|
  2. Win/C++
  3. | コメント:0
<<HAMAYAはまやレコードのスタンプ | ホーム | 句点コード 区点コード>>

コメント

コメントの投稿


管理者にだけ表示を許可する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。