מבני נתונים הסתברותיים: מה ההבדל בין מסנני MinHash לבלום?


תשובה 1:

MinHash משמש בעיקר כדי להעריך במהירות ובמדויק את הדמיון של ג'קארד בין שני דברים (למשל, שני מסמכים, שני מערכות ...).

מסנן בלום הוא מבנה נתונים יעיל המאפשר לך לגזום במהירות אלמנטים שאינם חלק מסט, עם האפשרות שהוא עלול לא להיכשל בגיזום כולם.

שניהם בעלי אופי הסתברותי, אך המטרה שונה מאוד.

MinHash ידוע מאוד ומשתמש לעתים קרובות מאוד בשליפת מידע.


תשובה 2:

החיסרון העיקרי של מסנני פריחה לחיפוש דמיון הוא שהם רווים כשהם מתמלאים, כך שאם לסטים שלכם יכולים להיות גדלים שונים מאוד, תקבלו הערכות לקויות של הדמיון לגדולים.

עם זאת, רצף של מחשישים אינו רווי, מרחק הפטיש בין שני רצפי המנאש נותר תמיד הערכה בלתי משוחדת של הדמיון של ג'קארד.

עם זאת, לעתים קרובות המינשאים אינם משמשים לייצור רישומים. מקרה השימוש העיקרי עבורם הוא ליצור מפתחות שישמשו לאשכול עם חנות ערך מפתח, וזה דבר שאי אפשר לעשות עם פילטר פורח אלא אם כן אתם דואגים רק לגפרורים שקרובים מאוד לדייק. תוכלו לקרוא עוד על כך כאן: MinHashing