Може ли човек да стане успешен архитект на големи данни, без да научи Data Science? Каква е разликата между архитекта на Big Data и Data Scientist?


Отговор 1:

Благодаря ви за множеството A2A! :)

Това е моят опит в личния опит по този въпрос.

В Miniclip имаме екип за научни данни и екип за инженерни данни. Екипът за инженеринг на данни обработва всички големи данни. С работа екипът за научни данни би могъл да го направи, но бихме го направили по-лошо и по-бавно ... не искаме това! :)

Екипът за инженеринг на данни всъщност не трябва да навлиза в спецификата на познанията в областта по пътя на екипа за наука за данни. Те обаче знаят доста малко машинно обучение и в по-големи автоматизирани проекти за данни работим заедно.

Така че според мен можете да станете успешен архитект / инженер с големи данни без наука за данни, което означава, без знанията за домейна / алгоритмиката, от които компаниите зависят от данните учени. Въпреки това ще бъдете много по-добър инженер за данни, ако вземете ръцете си в него.


Отговор 2:

Съгласен съм с Марчин. Учените за данни могат да използват инфраструктурата за големи данни от архитект на големи данни. IMO, някои от ключовите съображения, които един архитект на големи данни трябва да знае, са следните, от които част от анализа / науката за данни е (точка 3 по-долу):

1) Поглъщане на данни - пакетиране и поточно предаване

2) Съхранение на данни - Разпределено съхранение, NoSQL

3) Processing & Analytics ** - Партидна обработка, поточна обработка, анализи. Тук архитектът на големи данни трябва поне да знае за наличните инструменти за анализ / API за анализи, за да може да ги препоръча и да ги включи в инфраструктурата за големи данни (въз основа на случая на бизнес използване и предпочитанията на учените за данни). Малко от факторите, които трябва да се вземат предвид в инструмент за активиране на учен за данни, биха могли да бъдат - видове налични алгоритми, поддръжка на роден език, свързаност с Big data среда, възможности за анализ на данни, профилиране на данни и т.н.

4) Консумация - партидна или поточна консумация

5) Хардуерни нужди за различни компоненти на средата за разпространение на големи данни

6) Оперативни нужди на средата с големи данни


Отговор 3:

Съгласен съм с Марчин. Учените за данни могат да използват инфраструктурата за големи данни от архитект на големи данни. IMO, някои от ключовите съображения, които един архитект на големи данни трябва да знае, са следните, от които част от анализа / науката за данни е (точка 3 по-долу):

1) Поглъщане на данни - пакетиране и поточно предаване

2) Съхранение на данни - Разпределено съхранение, NoSQL

3) Processing & Analytics ** - Партидна обработка, поточна обработка, анализи. Тук архитектът на големи данни трябва поне да знае за наличните инструменти за анализ / API за анализи, за да може да ги препоръча и да ги включи в инфраструктурата за големи данни (въз основа на случая на бизнес използване и предпочитанията на учените за данни). Малко от факторите, които трябва да се вземат предвид в инструмент за активиране на учен за данни, биха могли да бъдат - видове налични алгоритми, поддръжка на роден език, свързаност с Big data среда, възможности за анализ на данни, профилиране на данни и т.н.

4) Консумация - партидна или поточна консумация

5) Хардуерни нужди за различни компоненти на средата за разпространение на големи данни

6) Оперативни нужди на средата с големи данни