מה ההבדל בין נתונים גדולים לבין מפתח ומנהלת Hadoop?


תשובה 1:

אינך יכול להשוות בין ביג דאטה לבין Hadoop מכיוון שביג דאטה היא בעיה ופתרון Hadoop סיפק לה. מפתח Hadoop ומנהל מערכת Hadoop הם תיקים של Hadoop.

ביג דאטה הוא אוסף ענק של נתונים שכן השם מתייחס "BIG DATA". לא ניתן לעבד אותו בשיטות מסורתיות מכיוון שרוב ייצור הנתונים הוא בצורה לא מובנית. אז, Hadoop התגלה כפתרון לבעיה זו.

אז בואו נלמד בפירוט על Big Data ו- Hadoop, כך שתוכלו לקבל מושג מלא אודות ה- Big Data וה Hadoop.

לדברי גרטנר: נתונים גדולים הם נכסי מידע ענקיים, מהירים ומהירים ומגוונים שונים הדורשים פלטפורמה חדשנית לתובנות משופרות ולקבלת החלטות.

אמצעי האחסון מכנה סולם נתונים

המהירות מתייחסת כניתוח של נתוני סטרימינג

מגוון מתייחסים לצורות של נתונים

  • עולה שאלה שנייה מדוע עלינו ללמוד ביג דאטה

ביג דאטה היא דרך לפתור את כל הבעיות הלא פתורות הקשורות לניהול וטיפול בנתונים, תעשייה קודמת שימשה לחיות עם בעיות כאלה. בעזרת ניתוח נתונים גדולים של ביג, אתה יכול לפתוח דפוסים נסתרים ולהכיר את התצוגה של 360 מעלות של הלקוחות ולהבין טוב יותר את הצרכים שלהם.

צפו בווידאו שלהלן למבוא ל- Big Data.

אם אתה מעוניין לדעת את ההיסטוריה של נתונים גדולים, עיין בקישור להיסטוריה של Big Data

היסטוריה של ביג דאטה

עכשיו קדימה עם Hadoop,

Hadoop הוא כלי קוד פתוח של ASF. HDFS מאחסנת את נפח הנתונים העצום בצורה אמינה.

כעת נראה כיצד HDFS סיפקה את הפיתרון

ב- Hadoop, HDFS מפצל קבצי ענק לחתיכות קטנות המכונות בלוקים. אלה יחידת הנתונים הקטנה ביותר במערכת קבצים. אין לנו (לקוח ומנהל) שום שליטה על החסימה כמו מיקום לחסום. Namenode מחליט על כל הדברים האלה.

HDFS מאחסן כל קובץ כבלוקים. עם זאת, גודל החסימה ב- HDFS גדול מאוד. גודל ברירת המחדל של חסימת HDFS הוא 128MB שתוכלו להגדיר לפי דרישתך. כל בלוקי הקובץ הם באותו גודל למעט החסימה האחרונה שיכולה להיות באותו גודל או קטנה יותר. הקבצים מפוצלים לבלוקים של 128 מגה בייט ואז מאוחסנים במערכת הקבצים Hadoop. אפליקציית Hadoop אחראית להפצת חסימת הנתונים על פני צמתים מרובים.

כעת מהדוגמא שלמעלה בה גודל הקובץ הוא 518MB נניח שאנו משתמשים בתצורת ברירת המחדל של גודל הבלוק 128MB. ואז נוצרים 5 בלוקים, ארבעת הבלוקים הראשונים יהיו בגודל 128MB, אך החסימה האחרונה תהיה בגודל של 6 מגהבייט בלבד. מהדוגמה שלעיל ברור כי אין זה הכרחי שב- HDFS, כל קובץ המאוחסן צריך להיות בכפולה מדויקת מגודל הבלוק המוגדר 128MB, 256MB וכו ', כך שחסימה סופית לקובץ משתמשת רק בכמות המרחב הדרוש

לפרטים נוספים של HDFS עיינו בקישור הבא:

HDFS - מדריך שלם

כעת נלך לעבר מפתח Hadoop ומנהל מערכת Hadoop.

מפתחת Hadoop

האחריות למשרות המפתחים של Hadoop היא לכתוב תוכניות לפי עיצובי המערכת ועליהן להיות בעלות הוגנות על קידוד ותכנות. המשימה של מפתח Hadoop דומה למפתחת תוכנה אך בתחום Big Data. תפקידו של מפתח Hadoop כולל גם הבנה ועבודה על מנת למצוא פתרונות לבעיות, תכנון וארכיטקטורה יחד עם כישורי תיעוד חזקים.

מנהל Hadoop

תחומי המשרה של ניהול Hadoop דומים לתפקיד מנהל המערכת. תפקידים ותחומי האחריות של Hadoop כוללים הגדרת אשכולות Hadoop, גיבוי, שחזור ותחזוקה של אותם. ידע טוב במערכות חומרה ואדריכלות Hadoop נדרש על ידי מנהל Hadoop.

אז כדי לדעת פרופילים נוספים של Hadoop עיין בקישור הבא:

תחומים שונים בהדופ ותפקידי עבודתה

מקווה שעניתי לשאילתה שלך.


תשובה 2:

עיין בתיאור שלהלן כדי להבין את תפקידי המפתח ומנהל המערכת של Hadoop.

מפתחת Big Data Hadoop:

מפתח Hadoop אחראי על קידוד / תכנות בפועל של יישומי Hadoop. תפקיד זה נרדף למפתח תוכנה או למפתח אפליקציות; מתייחס לאותו תפקיד אך בתחום ה- Big Data. אחד המרכיבים של Hadoop הוא MapReduce היכן שאתה צריך לכתוב תוכניות Java. אז אם יש לך ידע בסיסי ב- Java זה אמור להספיק. אבל, אם אין לך ידע ב- Java, אבל אתה יודע כל שפת תכנות אחרת, אתה יכול להתעדכן במהירות.

כישורים נדרשים:

  •  יכולת לכתוב Map פחת משרות ניסיון בכתיבת תסריטים לטיניים של חזירים ידיים על ניסיון ב- HiveQL הכרות עם כלי טעינת נתונים כמו Flume ו- Sqoop הכרת זרימת עבודה / מתזמנים כמו OozieBig Data Hadoop Administrator:

מנהל Hadoop אחראי על יישום וניהול שוטף של תשתיות Hadoop. התפקיד מחייב תיאום עם צוות הנדסת מערכות להציע ולפרוס סביבות חומרה ותוכנה חדשות הנדרשות עבור Hadoop ולהרחבת סביבות קיימות.

דורש עבודה עם צוותי מסירת נתונים לצורך הגדרת משתמשי Hadoop חדשים. משרה זו כוללת הגדרת לינוקס, הגדרת מנהלי Kerberos ובדיקת HDFS, Hive, Pig ו- MapReduce גישה למשתמשים החדשים. תחזוקת אשכולות וכן יצירה והסרה של צמתים בעזרת כלים כמו Ganglia, Nagios, Cloudera Manager Enterprise, Dell Open Manage וכלים אחרים.

כישורים נדרשים:

  •  יישום וניהול שוטף של תשתיות Hadoop. תחזוקת אשכולות, יצירה והסרה של צמתים בעזרת כלים כמו Ganglia, Nagios, Cloudera Manager Enterprise, Dell Open Manage וכלים אחרים. נהל ובדוק קבצי יומן של Hadoop. ניהול ומעקב אחר מערכות קבצים. תמיכה ותחזוקה של HDFS קביעת תצורה של מערכות אקולוגיות של Hadoop כמו חזיר, כוורת, HBase, Oozie וכו '. כוונון ביצועים של אשכולות Hadoop ו- Hadoop MapReduce שגרה

תשובה 3:

הי שחר,

עבור מפתחת Hadoop אתה צריך לכתוב קוד במפה מופחתת או לבצע שאילתות ותסריט לטיני בכוורת ובחזיר בהתאמה.

עבור מנהל מערכת אתה מסתכל על צמתים שונים בשרת לינוקס ושמירה על משימת mapreduce. כמו כן עליכם לשמור על חומרת סחורות כדי להריץ צמתים של hadoop בהצלחה.


תשובה 4:

חשוב להבין שביג דאטה והדאוף הם לא בדיוק אותו הדבר.

ביג דאטה הוא מושג, יותר דומה למאפשר טרנספורמציה עסקית מבחינת הנפח העצום והמגוון של מערכי הנתונים הקיימים.

Hadoop היא תשתית טכנולוגית לאחסון, ניהול וניתוח כמות אדירה זו של נתונים.

ההבדל בין מפתח Hadoop (או כל גרסא מסחרית אחרת של Hadoop) למנהל מערכת זהה לאומר מפתח ענן ומנהל ענן. היזם יבנה את היישומים והמופעים הדרושים לתשתית Big Data והיבטי הניהול בארגון. זה כרוך בקידוד ועבודה עם MapReduce, Hive, Soop, Oozie, Spark וכו '. מנהל, לעומת זאת, יבצע, מתחזק ומפקח על התשתית השוטפת, מקים ומפרוס כלים וחשבונות שונים, תחזוקה, אשכול. ניהול, כוונון ביצועים ועוד.

צרו קשר בכתובת [email protected] למידע נוסף.