Это может делать и Python, и Java, и PHP, и вообще практически любой язык, позволяющий отправлять HTTP-запросы по сети. Запросили страничку, получили длиннющую текстовую строку и поискали в ней то, что нам нужно.
Для парсинга HTML-разметки могут пригодиться специальные библиотеки.
Например, для Java есть Jsoup.
Однако многие современные сайты стали динамическими, так что при обычном запросе на полученной странице может просто не быть необходимых данных. Данные запрашиваются и подставляются позже — браузером через сценарий на языке JavaScript. А при простом скачивании страницы на ней никакие сценарии не выполняются.
В таких случаях самое простое решение — программа, которая сама запустит реальный браузер, откроет нужную страницу и возьмет данные оттуда.
Для программ, работающих по такому принципу, существует специальная библиотека — Selenium. На ее официальном сайте есть версии для C#, Ruby, Python, Java и JavaScript.
Другие языки программирования и технологии
На каких ЯП пишутся парсеры числовых данных с сайтов?
Те, кто предпочитает PHP, пишут на PHP.
Те, кто предпочитает Python, пишут на Python.
И т.д.
Написать можно на абсолютно любом языке программирования, умеющем получать контент с сайта. Проблемы возникнут только с браузерным JavaScript - и то не из-за языка, а из-за блокировок кросс-дорменных запросов самим браузером (у Node.JS таких ограничений нет).
Объём парсера зависит от того, насколько развесисты встроенные в язык библиотеки работы с HTML или хотя бы регулярных выражений. На PHP будет просто и удобно, на C сначала надо будет найти подходящие сторонние библиотеки, но даже с ними будет сложнее.
Те, кто предпочитает Python, пишут на Python.
И т.д.
Написать можно на абсолютно любом языке программирования, умеющем получать контент с сайта. Проблемы возникнут только с браузерным JavaScript - и то не из-за языка, а из-за блокировок кросс-дорменных запросов самим браузером (у Node.JS таких ограничений нет).
Объём парсера зависит от того, насколько развесисты встроенные в язык библиотеки работы с HTML или хотя бы регулярных выражений. На PHP будет просто и удобно, на C сначала надо будет найти подходящие сторонние библиотеки, но даже с ними будет сложнее.
на мавританском. код листов 200 выходит и три странички еще где то
на любых
Похожие вопросы
- Как вы считаете, сколько могут стоить данные дизайны сайтов, и какой дизайн вам нравится больше? :))
- ЛЮДИ зачем нужны БД (базы данных для сайта) ? Объясните девушки пожалуйста.
- На каком языке пишутся алгоритмы шифрования данных ??
- Delphi!? Возможно ли виртуально(динамически) зайти на сайт и записать данные с сайта в БД с помощью средств Delphi?
- C++, синтаксический анализатор,парсер.
- Сайт на PHP и база данных.
- Какой ЯП лучше в освоении? ASM или ЯП высокого уровня?
- Когда сделают карточки по ЯП? На каждый язык свои карточки, со схемами и рисунками логическими.
- как перевести ноты в числовой формат?
- Алгоритм перестановок элементов числового ряда