Владимир
Владимир

Простейший парсинг HTML, но сильно критична скорость. На чем и как реализовать?

Допустим в текстовом файле есть 100500 сцылок.
Мне нужно по каждой ссылке достать содержимое тегов < title > и < / title>.
Написал сам на Python, с использованием HTMLParser и urllib.request
Но каждая ссылка обрабатывается 3-4 секунды (это слишком много, для большого объема ссылок) - это время загрузки страницы через request и парсинга вместе.
На чем и с какой либой можно переписать программу, чтобы работала быстрее? Мне-бы хоть на чистом Си, главное подскажите, куда копать.

Спасибо, Кэп! 😄 Вопрос закрыт.

КН
Карим Ниязов

Тебе нужна многопоточность. Проблема не в парсинге (ни один парсинг не займет секунды, разве что он совсем кривой) , а в загрузке, точнее в том, что пока грузится одна ссылка, программа стоит. Вот и запускай полсотни загрузок одновременно. Поищи в гугле "многопоточность в python"

ЮР
Юра Ракитин

Добавлю и свои 5 копеек.
Если нужен только тайтл, то не обязательно полностью грузить страницу. Достаточно сформировать http запрос и начать получать ответ. Когда дойдет до тега title начать запись в переменную. А когда до закрывающего дойдет - сбросить соединение.

Похожие вопросы
как реализовать снятие жизней в игре html. как реализовать снятие жизней в игре html если че вот ссыль_)
Реально ли реализовать в HTML считывание данных с форм?
Как реализовать на форме html вот такое?
Альтернатива простому сайту на HTML
Как реализовать на html/css такое расположение
Как реализовать данную менюшку? С помощью только html и css?
Создать сайт на html очень простой
Помогите создать простой сайт на html
Простейшее создание сайтов html в блокноте.
парсинг, конечный автомат, приоритет