Поиск дубликатов

Любые обсуждения, не нарушающие правил форума.

Модератор: Модераторы

Поиск дубликатов

Сообщение Deimos » 27.12.2023 23:12:52

Доброго времени вам, камрады

Разбирал давеча свои архивы и обнаружил, что есть вагон дубликатов файлов. Начал посмотреть софт и был сурово опечален удобством и скоростью работы. Софтина за которую просят денег говорит, что папку 285 гигов (+/- 50000 файлов) она будет обрабатывать овер 28 часов.

Было пару часов времени - набросал свой вариант. С Хешами обрабатывает около часу, без них - 104 секунды. В моем случае совпадение что с хешами, что без них было одинаковым. Писал чисто для себя, но могу поделиться если нужно или выложить в "наши разработки" - хотя там и выкладывать нечего особо... так... формошлепство просто. Из полезного - адаптированный, под массивы, вариант сортировки Хора. хотя он, как я понял, используется и для сортировки в tedit и иже с ним...

буду рад вашим мыслям.
Deimos
постоялец
 
Сообщения: 169
Зарегистрирован: 17.01.2010 00:31:30

Re: Поиск дубликатов

Сообщение RRYTY » 28.12.2023 05:20:25

Доброго вам времени суток!
В реальном применении критична не скорость обработки данных, а скорость обращения к носителям. При работе с сетевыми файлопомойками именно это и определяет скорость работы. Да и на локальных машинах так же. Ведь нужно прочитать все файлы.
Так же обязателен лог работы для последующей обработки (да хоть бы и по почте администратору скидывать) и возможность запуска по расписанию.

Для этого уже есть инструменты. Например, fdupes. Бесплатно.
https://ru.wikipedia.org/wiki/Fdupes
Там в "Аналогичных программах" приведен их еще вагон.

Вообще же, чисто не там, где метут, а там, где не сорят. Для домашнего использования лучше задуматься над системой резервирования критических данных по расписанию и иметь полную актуальную копию. На серверах это делается еще и с глубиной хранения полных архивированных месячных копий по несколько месяцев с автоудалением устаревших.
RRYTY
постоялец
 
Сообщения: 187
Зарегистрирован: 25.12.2021 10:00:32

Re: Поиск дубликатов

Сообщение Deimos » 28.12.2023 12:34:17

RRYTY писал(а):В реальном применении критична не скорость обработки данных, а скорость обращения к носителям. При работе с сетевыми файлопомойками именно это и определяет скорость работы. Да и на локальных машинах так же. Ведь нужно прочитать все файлы.
Именно скорость считывания с HDD меня и возмутила.

RRYTY писал(а):https://ru.wikipedia.org/wiki/Fdupes
- этой не попалось. Не писал-бы ничего... )))

RRYTY писал(а):Вообще же, чисто не там, где метут, а там, где не сорят. Для домашнего использования лучше задуматься над системой резервирования критических данных по расписанию и иметь полную актуальную копию.
Я не совсем понял при чем тут резервирование, но сама мысль о нем верна и я ее поддерживаю...

В целом - благодарю за ответ.
Deimos
постоялец
 
Сообщения: 169
Зарегистрирован: 17.01.2010 00:31:30

Re: Поиск дубликатов

Сообщение RRYTY » 28.12.2023 14:28:03

Deimos писал(а):Я не совсем понял при чем тут резервирование


Речь же шла про архивы. Нетленные архивы для потомков составляются с умом и убираются в кладовку, там проверять нечего. Значит - оперативные. Оперативный архив это срез критических и рабочих данных, вот и подумал, что это резервирование. :-D
RRYTY
постоялец
 
Сообщения: 187
Зарегистрирован: 25.12.2021 10:00:32

Re: Поиск дубликатов

Сообщение WAYFARER » 28.12.2023 16:50:54

Deimos писал(а):Хешами обрабатывает около часу,

А какой алгоритм хеширования используется?
Некоторое время назад решали подобную задачу, и именно это стало узким местом.
Аватара пользователя
WAYFARER
энтузиаст
 
Сообщения: 520
Зарегистрирован: 09.10.2009 00:00:04
Откуда: г. Курган

Re: Поиск дубликатов

Сообщение sts » 28.12.2023 16:57:15

Deimos писал(а):она будет обрабатывать овер 28 часов.

это быстро
sts
постоялец
 
Сообщения: 415
Зарегистрирован: 04.04.2008 12:15:44
Откуда: Тольятти

Re: Поиск дубликатов

Сообщение Deimos » 29.12.2023 14:25:31

WAYFARER писал(а):
Deimos писал(а):Хешами обрабатывает около часу,

А какой алгоритм хеширования используется?


Я поковырял стандартные sha1 и md5 и, не обнаружив в них разницы по скорости существенной, остановился на sha1

Тестовый стенд - am3+ fx 4300. Файлы на НЖМД wd green 5400об 8 гб/рам, win11 - на ссд, но не думаю, что это вообще играло роль. 285 гиг. 46500 файлов. в основном - фото в жпег. Но есть с тысячу видео разных форматов. Т.е. железо сильно не топовое.

З.Ы. - программа делалась исключительно для себя и я особо не заморачивался

Добавлено спустя 2 минуты 39 секунд:
sts писал(а):
Deimos писал(а):она будет обрабатывать овер 28 часов.

это быстро



если говорить о серьезных проектах, то да. Если о утилитарном домашнем применении, то час меня устроил больше, чем 28 ). Ну +три, который я потратил на работу. Но это больше разминкой для себя было. Не писал ничего года три.
Deimos
постоялец
 
Сообщения: 169
Зарегистрирован: 17.01.2010 00:31:30


Вернуться в Потрепаться

Кто сейчас на конференции

Сейчас этот форум просматривают: Yandex [Bot] и гости: 84

Рейтинг@Mail.ru