100万件程の大量データの中で重複するデータを見つける方法を紹介します。
- 前提条件
検証で使用した環境は次の通りです。
RAND()関数で作成した約100万件(Excelの最大行数となる1,048,576個)のデータを使用しています。PC AMD Ryzen 5 3400G, メモリ: 16GB, SSD: 256GB OS Windows 10(64ビット) Office Microsoft Office Professional Plus 2019
(Microsoft® Excel® 2019 MSO (16.0.14228.20216) 32 ビット ) - 重複検出方法の比較
- 性能の違いの説明
データ件数に応じた比較回数と計算量を次に示します。方法案 平均比較回数
(100件想定)平均比較回数
(100万件想定)計算量 単純案 100 × 100 ÷ 2 1,000,000 × 1,000,000 ÷ 2 O(n2) 改善案 100 1,000,000 O(n)