Другие языки программирования и технологии
Есть собранные краулером биг дата. Какие есть платформы способные анализировать, сортировать и выводить большие данные?
Здравствуйте. Мы работаем над сервисным программным продуктом, который будет собирать информацию с новостных сайтов и с социальных сетей на предмет выявления недовольства среди граждан. Это может быть негативные комментарии и критикующие статьи от блогеров. У нас уже есть краулер для сбора больших данных и мы остановились на обработке и сортировке этих самых данных. Если быть точнее, наша СПП должна будет по нажатию кнопки выводить нужную информацию. Например если мы выберем закон «О связи», то он должен будет выводить все комментарии в одной строке, все статьи в другой и статистические данные по этому направлению в третьей строке. Внимание вопрос! Какие есть платформы способные анализировать и сортировать эту информацию? Жду вашего приятнейшего ответа.
Ну так наймите специалистов, которые ответят на эти вопросы. Чтобы узнать название систем, достаточно на Хабре щёлкнуть по тегу Big Data. Но любая система - это только инструмент, помогающий в решении, но никак не решение задачи.
Интересно, кому вы собираетесь продавать свои услуги? У спецслужб собственные системы мониторинга, власть на настроения граждан кладёт с прибором, а сами граждане знают собственное настроение куда лучше всяческих "аналитических систем"...
Интересно, кому вы собираетесь продавать свои услуги? У спецслужб собственные системы мониторинга, власть на настроения граждан кладёт с прибором, а сами граждане знают собственное настроение куда лучше всяческих "аналитических систем"...
Бекжан Сеитжапаров
Это гос. заказ для отслеживания дееспособности принятых законов
Нету ничего. Бигдата и хайлоад решения в принципе очень негибкие всегда поулчаются, они заточены под конкретные данные и выборки по ним. Даже небольшие изменения в могут потребовать серьезных переработок в структуре данных и миграции данных, а иногда даже и смены или добавления СУБД другого типа.
Есть полно решений для облачных вычислений и хранения данных, но все они достаточно "низкоуровневые" - обычно это какаято распределенная СУБД и реализация мап-редьюс в облаке, так что строить архитектуру и програть бизнес логику всеравно придеться как и без всего этого. Смысла все это использовать нет никакого - проще развернуть свой хадуп кластер и кассандру/scylladb. Завязанность на сторонние saas\paas это всегда очень плохо - их проблемы всегда становятся вашими проблемами, свои проблемы в инфраструктуре всегда можно решить. Ну и госзакачики (особенно если это спецслужбы или любая хрень с секреткой) справедливо обоссут все это еще на этапе ТЗ когда увидят там Amazon или Google.
По частной проблеме видно что вам нужен поисковый движок. Инфой как их проектировать под NoSQL завален весь интернет. Там все давольно изи.
По тому что делать. Стоит сразу проанализировать масштабы проблемы - может вся ваша бахдата сведеться к К 5 серверам с Elasticsearch(что я бы и рекомендовал использовать до получения стабильного по фичам продукта, когда придет время уже и о производительности с мастабируемостью подумать), и ничего делать не надо будет
Есть полно решений для облачных вычислений и хранения данных, но все они достаточно "низкоуровневые" - обычно это какаято распределенная СУБД и реализация мап-редьюс в облаке, так что строить архитектуру и програть бизнес логику всеравно придеться как и без всего этого. Смысла все это использовать нет никакого - проще развернуть свой хадуп кластер и кассандру/scylladb. Завязанность на сторонние saas\paas это всегда очень плохо - их проблемы всегда становятся вашими проблемами, свои проблемы в инфраструктуре всегда можно решить. Ну и госзакачики (особенно если это спецслужбы или любая хрень с секреткой) справедливо обоссут все это еще на этапе ТЗ когда увидят там Amazon или Google.
По частной проблеме видно что вам нужен поисковый движок. Инфой как их проектировать под NoSQL завален весь интернет. Там все давольно изи.
По тому что делать. Стоит сразу проанализировать масштабы проблемы - может вся ваша бахдата сведеться к К 5 серверам с Elasticsearch(что я бы и рекомендовал использовать до получения стабильного по фичам продукта, когда придет время уже и о производительности с мастабируемостью подумать), и ничего делать не надо будет
Похожие вопросы
- C++(консоль) Программа, которая выводит данные треугольников со стороной максимум 5000
- как сортировать по дате столбцы в экселе?
- Как сортировать столбцы Exel с одинаковыми значениями?
- Каковы недостатки платформы 1С?
- Хотел бы открыть платформу для создания сайтов онлайн Подскажите, с чего начать
- С++ Выводила бы его корни или сообщение об их отсутствии
- В чем ошибка программы? ? с++. Выводит матрицу не полностью
- Обмен данными между datagrid viewи базой данных
- Как называется программа - робот - скрипт, которая считывает информацию с сайтов, анализируя и вставляю в excel нужную и
- ООП это когда данные управляют кодом а функциональное когда код данными?