Документ (один и тот же) в интернете, в идеале, должен иметь один уникальный адрес. Однако, на практике, это далеко не так. Существует множество документов на различных интернет-серверах с практически идентичным содержанием. При появлении скриптовых языков программирования и различных технологий для серверной стороны интернет-приложений, данная проблема стала наиболее острой. Достаточно просто породить неограниченное количество дублирующихся документов. С этим связана одна из основных проблем информационно-поисковых систем: проблема определения нечетких дублей документов.