Python

Сколько места на диске примерно нужно для хранения датасетов для нейросетевой программы? Подробности внутри

Предполагается функционал из 3 частей:
- Распознавание лиц;
- Обработка естественного языка;
- Синтез речи (голосовые модели, обучающиеся на аудиофайлах, не путать с синтезаторами речи на голосовых движках).

Вот на эти 3 задачи сколько места приблизительно нужно под датасеты суммарно (можно с запасом).
Руслан Сафин
Руслан Сафин
5 663
Датасет — это механизм хранения информации, который предоставляет быстрый доступ к большим объемам данных. Датасет может хранить до 4 ТБ, при этом доступ к данным будет быстрее, чем к основному хранилищу проекта.

Вам хватит.... 4 ТБ
Саша"митя" Митюков
Саша"митя" Митюков
94 318
Лучший ответ
Такие данные обычно размещаются не на стационарных ПК, а на серверах, где стоимостью хранения можно пренебречь. Куда важнее оперативная память, CPU/GPU
Руслан Сафин С объёмом оперативки проблем нет (64 Гб), видеокарта в нынешнее время дефицита более чем подходящая под эти задачи (20 серия Nvidia), процессор твёрдый середнячок 6-ядерный, но судя по тем вебинарам, акцент больше на видюхе. Давайте вернёмся к вопросу объёма на носителях, если, конечно, владеете информацией. Если заоблачный объём для нас простых людей, то минимум для датасетов какой-то укажите
Так, если подытожить, то на координаты одного лица может уйти 100-и килобайтов.
Распознавание голоса штука сложная, и чтобы все работало быстро, нужно хранить запас вариантов слов в оперативной памяти, скажем компрессованный словарь будет 50 гигабайтов на диске.
В итоге от нескольких сотен гигабайт до терабайта и больше.
Вопрос следует спросить у профессионала.
Это зависит, в первую очередь, от размера файлов.
Например, для распознавания лиц требуется датасет из картинок. Но картинки с лицами могут быть и размером 200 Кб и размером 10 Мб.
Далее, в датасете может быть определённое число картинок. Например, один миллион картинок или 100 миллионов картинок. Это зависит от того, какая точность распознавания лиц нужна и сколько классов будет распознаваться.

Ну, то есть вопрос у вас, как бы, недоработан. Посчитать невозможно.
Руслан Сафин Ну к сожалению, я пока не углубился настолько глубоко в эту тему, только собрал ПК для данной цели, ещё грызть и грызть мне гранит науки программирования.
Этот вопрос я заранее задаю, чтобы хотя бы примерно прикидывать что да как в плане размещения информации, потому что купил 2 носителя информации. Резон вопроса - примерно прикинуть сколько хотя бы отдалённо-ориентировочно, чтобы в соответствии с этим разметить эти носители.

Из Вашего ответа я правильный делаю вывод, что принцип такой: смотрю разрешение той веб-камеры, что у меня стоит, прикидываю в среднем, сколько будет изображение и множу на количество изображений для датасета и получается приблизительное количество? Если правильно понял, то сколько желательно иметь изображений в датасете, чтобы была более или менее сносная точность?
Руслан Сафин опечатка: приблизительное не количество, а объём памяти
Руслан Сафин 3) Я примерно вчера прикидывал. Опять же, почему я в целом такой вопрос задаю, место ограничено, при том, что я потратился не слабо заранее, а то с SSD, по ходу, начинается подорожание уже, поэтому попытался заранее продумать в разметке дисков всё так, чтобы всё поместилось. Я правильно посчитал примерную квоту на датасеты в Гигабайтах (голосовую часть русской речи пробивал вчера, указал не весь объём, т. к. по части памяти слишком накладно, выбрал наиболее интересную часть в коллекции датасетов)? По своему опыту подскажите, правильно ли я примерно прикинул, до 3 ночи над этим заморачивался, а резон, правильно разметить чтобы потом диск, нужно прикидывать, сколько что примерно будет занимать, там же не только это будет. Скрин в следующем комментарии...
Для решения необходимо знать следующие данные:
1. Вес каждой картинки с лицами
2. Кол-во картинок.

Так же, можно хранить не саму картинку, а ее хэш. Так будет намного эффективнее в плане экономии места.
Andrey Neva
Andrey Neva
204
Руслан Сафин Я спрашивал наперёд, чтобы заранее знать, размечая диск, под что сколько выделить. Многое, точнее не многое, а процентов 90 информации ещё не знаю, только компьютер недавно собрал для этой цели. Когда Вы сказали про хэш, я почувствовал такую степень своего незнания на данном этапе, что даже мне непросто правильно сформулировать вопрос. Но попытаюсь. Я примерно знаю, что такое хэш, по нему я проверял подлинность дистрибутивов Linux, там были SHA1, MD5, и т. п. Также когда немного программировал на PHP сталкивался с функцией создания md5-хэша. Но здесь я не совсем понимаю, как этот механизм работает не с картинкой, а её текстовым хэшем, картинку ещё с натяжкой представляю, как можно задействовать для распознавания