как да бъда добър голям


Отговор 1:

Бих ви препоръчал първо да разберете големите данни и предизвикателствата, свързани с големите данни. И така, за да можете да разберете как Hadoop се появи като решение на тези проблеми с големите данни.

Тогава трябва да разберете как работи архитектурата на Hadoop по отношение на HDFS, YARN & MapReduce. След това трябва да инсталирате Hadoop на вашата система, за да можете да започнете да работите с Hadoop. Това ще ви помогне да разберете подробно практическите аспекти.

По-нататъшно придвижване се потопете дълбоко

Екосистема Hadoop

и научете различни инструменти в Hadoop Ecosystem с техните функции. Така че, за да научите как да създадете персонализирано решение според вашите изисквания.

Какво представляват големите данни?

Големите данни е термин, използван за събиране на масиви от данни, които са големи и сложни, което е трудно да се съхранява и обработва с помощта на налични инструменти за управление на база данни или традиционни приложения за обработка на данни. Предизвикателството включва улавяне, куриране, съхранение, търсене, споделяне, прехвърляне, анализ и визуализация на тези данни.

Характеризира се с 5 V.

ОБЕМ: Обемът се отнася до „количеството данни“, което нараства с всеки ден с много бързи темпове.

СКОРОСТ: Скоростта се определя като скоростта, с която различните източници генерират данните всеки ден. Този поток от данни е масивен и непрекъснат.

СОРТЕ: Тъй като има много източници, които допринасят за големите данни, видът на данните, които генерират, е различен. Тя може да бъде структурирана, полуструктурирана или неструктурирана.

СТОЙНОСТ: Всичко е добре и добре да имаме достъп до големи данни, но освен ако не успеем да го превърнем в стойност, е безполезно. Намерете прозрения в данните и се възползвайте от тях.

ИСТИННОСТ: Достоверността се отнася до данните със съмнение или несигурност на наличните данни поради несъответствие и непълнота на данните.

Какво е Hadoop и архитектурата?

Основните компоненти на HDFS са NameNode и DataNode.

NameNode

Това е главният демон, който поддържа

и управлява DataNodes (подчинени възли). Той записва метаданните на всички файлове, съхранявани в клъстера, напр. Местоположението на съхранените блокове, размера на файловете, разрешенията, йерархията и т.н. Той записва всяка промяна, която се извършва в метаданните на файловата система.

Например, ако файл е изтрит в HDFS, NameNode веднага ще запише това в EditLog. Той редовно получава Heartbeat и доклад за блока от всички DataNodes в клъстера, за да гарантира, че DataNodes са активни. Той поддържа запис на всички блокове в HDFS и в кои възли се съхраняват тези блокове.

DataNode

Това са подчинени демони, които работят на всяка подчинена машина. Действителните данни се съхраняват в DataNodes. Те отговарят за обслужването на искания за четене и писане от клиентите. Те също са отговорни за създаването на блокове, изтриването на блокове и репликирането им въз основа на решенията, взети от NameNode.

За обработка използваме ПРЕЖДА (Още един преговарящ за ресурси). Компонентите на YARN са ResourceManager и NodeManager.

ResourceManager

Това е компонент на ниво клъстер (по един за всеки клъстер) и работи на главната машина. Той управлява ресурси и планира приложения, работещи върху YARN.

NodeManager

Това е компонент на ниво възел (по един на всеки възел) и работи на всяка подчинена машина. Той отговаря за управлението на контейнери и наблюдението на използването на ресурсите във всеки контейнер. Той също така следи здравето на възела и управлението на регистрационните файлове. Той непрекъснато комуникира с ResourceManager, за да остане актуален.

Можете да извършите паралелна обработка на HDFS с помощта на MapReduce.

MapReduce

Това е основният компонент на обработката в екосистемата на Hadoop, тъй като осигурява логиката на обработката. С други думи, MapReduce е софтуерна рамка, която помага при писането на приложения, които обработват големи масиви от данни, използвайки разпределени и паралелни алгоритми в средата на Hadoop. В програма MapReduce Map () и Reduce () са две функции. Функцията Map извършва действия като филтриране, групиране и сортиране. Докато функцията „Намаляване“ обобщава и обобщава резултата, получен от функцията на картата. Резултатът, генериран от функцията Map е двойка ключови стойности (K, V), която действа като вход за функцията за намаляване.

Можете да преминете през това видео, за да разберете Hadoop и архитектурата му в детайли.

Инсталирайте Hadoop

Единичен възел

и

Клъстер с множество възли

Тогава можете да преминете през това

Блог на Hadoop Ecosystem

за да научите подробно екосистемата Hadoop.

Можете също така да преминете през това видео с уроци по Hadoop Ecosystem.

Искра

Apache Spark е рамка за анализ на данни в реално време в разпределена изчислителна среда. Искрата е написана на Скала и първоначално е разработена в Калифорнийския университет, Бъркли. Той изпълнява изчисления в паметта, за да увеличи скоростта на обработка на данни чрез Map-Reduce. Той е 100 пъти по-бърз от Hadoop за широкомащабна обработка на данни чрез използване на изчисления в паметта и други оптимизации. Следователно се изисква висока обработваща мощност от Map-Reduce.

Както можете да видите, Spark се предлага с библиотеки на високо ниво, включително поддръжка за R, SQL, Python, Scala, Java и т.н. Тези стандартни библиотеки увеличават безпроблемните интеграции в сложен работен процес. Освен това, той също така позволява различни набори от услуги да се интегрират с него като MLlib, GraphX, SQL + Data Frames, Streaming услуги и др., За да увеличат своите възможности.

Можете също да преминете през това видео с въпроси за интервю за Hadoop, за да получите представа за въпросите, зададени в интервю за Hadoop.

Edureka предоставя добър списък с видео уроци за Hadoop. Бих ви препоръчал да преминете през това

Плейлист за видео на уроци за Hadoop

както и

Поредица от блогове за Hadoop Tutorial

. Вашето обучение трябва да бъде приведено в съответствие с

Сертифициране на Hadoop

.


Отговор 2:

Неговият отворен въпрос с отворен отговор.

На първо място зависи от това колко отдаденост трябва да научите и практикувате хадооп.

Hadoop е нова технология, така че няма много помощ онлайн, ако сте останали по някое време.

Сега предполагам, че имате посвещение, така че ще стигна до въпроса.

Първо разберете как работи hadoop framework. В това трябва да научите как работи основният компонент на hadoop, т.е. HDFS и Map-Reduce.

Тъй като научаваме c и c ++, преди да научим Java, .net и т.н. като този hadoop е в основата на много нови и популярни рамки като apache spark, apache storm и т.н.

Прочетете „окончателното ръководство на hadoop“ - най-добрата му книга, която съм чел досега.

След като се запознаете с hadoop и се чувствате малко уверени, изтеглете виртуална машина (CDH) от сайта на клодера. Той съдържа настройка на hadoop, на която можете да практикувате.

Ако сте от фона на програмирането, тогава практикувайте програми за намаляване на картите, които лесно можете да намерите онлайн. Ако не сте много запознати с програмирането, започнете с apache Pig, след това с apache sqoop, след това с apache hive, след това с apache hue и с apache oozie.

Досега ще сте много уверени в hadoop и неговата екосистема.

Сега започнете с демо проекти. Ще получите много примерни набори от данни онлайн.

На

Онлайн обучение, Курсове за бизнес сертифициране на ИТ технологии - acadgild.com | AcadGild

можете да намерите много демонстрационни проекти за практика.

Помислете за голямо .. Помислете за големи данни .. !!


Отговор 3:

Вярвам, че всичко се свежда до прилагането на правилна методология и подходящи инструменти за всеки набор от данни / проблем, който решавате. От поглед отгоре, добро разбиране на:

  • Поглъщане - как и какъв е оптималният начин за поглъщане на данни от различни източници в HDFS / HBase / NoSQL? По-нататъшно разбиране на начина, по който погълнатите данни ще се консумират от веригата надолу
  • Трансформация - кой инструмент да се използва и как да се приложи: в паметта или групова обработка
  • Изход - най-вероятно инструмент за заявка или визуализация. Как най-добре да взаимодействаме: изпратена заявка или изтеглена заявка (трансфер на данни)

Отговор 4:

Обърнете се към това събитие и получете всичките си отговори, свързани с BigData / Hadoop, абсолютно безплатно

Пазарът на Великобритания за онлайн курсове и ИТ обучение

отива

да организира онлайн събитие за Въведение в Big Dat & Hadoop

. Най-хубавото е, че е така

абсолютно безплатно!

. То е насочено към

в полза на по-свежи и начинаещи

които се стремят да изградят кариера в тази област.

Ще има подробно обяснение за големите данни и текущите решения за работа с огромни данни и бази данни

След това ще бъдете изложени на Hadoop и неговите инструменти и техники като Sqoop, Oozie, прасе, кошер, HBase, Cassandra. Това събитие ще включва и очертания на уеб услугите на Amazon (облак) и много други.

Като цяло това ще бъде като краш курс в Hadoop & Big Data, който ще ви помогне с вашите важни житейски решения.

Не пропускайте тази златна възможност, която изисква само вашето време и нищо друго

Времена на събитията:

Събота, 14 януари 2017 г.

11:00 - 12:00 GMT

Връзки към събитието:

Потвърждение чрез Facebook

-

Въведение в науката за данни

Регистрация за това събитие в EventBrite

-

https://goo.gl/il6cmo

Очаквам с нетърпение вашето участие


Отговор 5:

Продължавайте да практикувате цялата концепция, свързана с хадооп. Форк apache hadoop кодова база, налична на github, и започнете да гледате проблемите. Ако е възможно, опитайте да допринесете. Можете да започнете да търсите въпроси за stackoverflow и да опитате да отговорите, ако е възможно. Определено това ще ви помогне да станете добър разработчик на големи данни. връзка за кодова база:

apache / hadoop

Отговор 6:

Може да намерите отговорите си тук .....

https://acadgild.com

Практикуването от себе си е най-добрият начин да отидете, но може да бъде труден начин, ако не сте от техническа област, в тази ситуация можете да вземете онлайн коучинг.