Zum Inhalt springen

Jaccard-Koeffizient

aus Wikipedia, der freien Enzyklopädie

Vorlage:Hinweisbaustein Der Jaccard-Koeffizient oder Jaccard-Index, auch Intersection over Union nach dem Schweizer Botaniker Paul Jaccard (1868–1944) ist eine Kennzahl für die Ähnlichkeit von Mengen. Oft wird er auch nach seiner Definition als IoU (Intersection over Union) bezeichnet.

<templatestyles src="Mehrere Bilder/styles.css" />

{{#if: |
{{{Kopfzeile}}}

}}{{#ifeq: vertical | vertical

|
[[Datei:{{#if: Intersection of sets A and B.svg
                       | Intersection of sets A and B.svg
                       | Vorlage:Platzhalterbild/file
}}|{{#if: 128 | 128 | 150 }}px{{#if: | |alt={{{Alt1}}} }}{{#if: | |class={{{Class1}}} }}{{#if: | |{{{Beschreibung1}}} }}]]
{{#if: Vorlage:Mehrere Bilder/Align |
{{{Untertitel1}}}
}}
[[Datei:{{#if: Union of sets A and B.svg
                       | Union of sets A and B.svg
                       | Vorlage:Platzhalterbild/file
}}|{{#if: 128 | 128 | 150 }}px{{#if: | |alt={{{Alt2}}} }}{{#if: | |class={{{Class2}}} }}{{#if: | |{{{Beschreibung2}}} }}]]
{{#if: Vorlage:Mehrere Bilder/Align |
{{{Untertitel2}}}
}}
{{#if: |
[[Datei:{{{Bild3}}}|{{#if: 128 | 128 | 150 }}px{{#if: | |alt={{{Alt3}}} }}{{#if: | |class={{{Class3}}} }}{{#if: | |{{{Beschreibung3}}} }}]]
{{#if: Vorlage:Mehrere Bilder/Align |
{{{Untertitel3}}}
}}
      }}{{#if: 
|
[[Datei:{{{Bild4}}}|{{#if: 128 | 128 | 150 }}px{{#if: | |alt={{{Alt4}}} }}{{#if: | |class={{{Class4}}} }}{{#if: | |{{{Beschreibung4}}} }}]]
{{#if: Vorlage:Mehrere Bilder/Align |
{{{Untertitel4}}}
}}
      }}{{#if: 
|
[[Datei:{{{Bild5}}}|{{#if: 128 | 128 | 150 }}px{{#if: | |alt={{{Alt5}}} }}{{#if: | |class={{{Class5}}} }}{{#if: | |{{{Beschreibung5}}} }}]]
{{#if: Vorlage:Mehrere Bilder/Align |
{{{Untertitel5}}}
}}
      }}
|
[[Datei:{{#if: Intersection of sets A and B.svg
                     | Intersection of sets A and B.svg
                     | Vorlage:Platzhalterbild/file
}}|{{#if: 128 | 128 | {{#if: | {{{Breite1}}} | 150 }} }}px{{#if: | |alt={{{Alt1}}} }}{{#if: | |class={{{Class1}}} }}{{#if: | |{{{Beschreibung1}}} }}]]
{{#if:
                 |
                 | {{#if: Vorlage:Mehrere Bilder/Align
|
{{{Untertitel1}}}
                   }}
}}
[[Datei:{{#if: Union of sets A and B.svg
                      | Union of sets A and B.svg
                      | Vorlage:Platzhalterbild/file
}}|{{#if: 128 | 128 | {{#if: | {{{Breite2}}} | 150 }} }}px{{#if: | |alt={{{Alt2}}} }}{{#if: | |class={{{Class2}}} }}{{#if: | |{{{Beschreibung2}}} }}]]
{{#if:
                 |
                 | {{#if: Vorlage:Mehrere Bilder/Align
|
{{{Untertitel2}}}
                   }}
}}
{{#if: |
[[Datei:{{{Bild3}}}|{{#if: 128 | 128 | {{#if: | {{{Breite3}}} | 150 }} }}px{{#if: | |alt={{{Alt3}}} }}{{#if: | |class={{{Class3}}} }}{{#if: | |{{{Beschreibung3}}} }}]]
{{#if:
                     |
                     | {{#if: Vorlage:Mehrere Bilder/Align
|
{{{Untertitel3}}}
                       }}
}}
      }}{{#if: 
|
[[Datei:{{{Bild4}}}|{{#if: 128 | 128 | {{#if: | {{{Breite4}}} | 150 }} }}px{{#if: | |alt={{{Alt4}}} }}{{#if: | |class={{{Class4}}} }}{{#if: | |{{{Beschreibung4}}} }}]]
{{#if:
                     |
                     | {{#if: Vorlage:Mehrere Bilder/Align
|
{{{Untertitel4}}}
                       }}
}}
      }}{{#if: 
|
[[Datei:{{{Bild5}}}|{{#if: 128 | 128 | {{#if: | {{{Breite5}}} | 150 }} }}px{{#if: | |alt={{{Alt5}}} }}{{#if: | |class={{{Class5}}} }}{{#if: | |{{{Beschreibung5}}} }}]]
{{#if:
                     |
                     | {{#if: Vorlage:Mehrere Bilder/Align
|
{{{Untertitel5}}}
                       }}
}}
}}
  }}

{{#ifeq: vertical | vertical

 |
 | {{#if: 
| {{#if: |
       }}{{#if: 
|
       }}{{#if: 
|
       }}
   }}

}}

{{#if: Schnittmenge (oben) und Vereinigungsmenge (unten) von zwei Mengen A und B

|
Schnittmenge (oben) und Vereinigungsmenge (unten) von zwei Mengen A und B
}}

{{#if: {{#invoke:Expr|TemplateBooland}}

    |
    | {{#ifeq: 0 | 0
        | 
      }}
  }}

Geschichte

Jaccard entwickelte den „Jaccard-Koeffizienten“ in seiner 1902 erschienenen Schrift Lois de distribution florale dans la zone alpine auf Seite 72. Er nannte ihn „coefficient de communauté florale“.<ref>Paul Jaccard: Lois de distribution florale dans la zone alpine, Bulletin de la Société Vaudoise des Sciences Naturelles, Band 38 (1902), S. 72, doi:10.5169/seals-266762#110 Abgerufen am 23. November 2018.</ref><ref>{{#invoke:Vorlage:Literatur|f}}</ref>

Der Jaccard-Koeffizient konnte sich in der Mathematik etablieren und wird als Ähnlichkeitsmaß für Mengen, Vektoren und ganz allgemein für Objekte genutzt.<ref><templatestyles src="Webarchiv/styles.css" />{{#if:20181123201030

      | {{#ifeq: 20181123201030 | *
    | Vorlage:Webarchiv/Wartung/Stern{{#if: Ähnlichkeitsmaße für Vektoren | {{#invoke:WLink|getEscapedTitle|Ähnlichkeitsmaße für Vektoren}} | {{#invoke:Webarchiv|getdomain|http://kontext.fraunhofer.de/haenelt/kurs/folien/VektorAehnlichkeit-2.pdf}} }} (Archivversionen)
    | {{#iferror: {{#time: j. F Y|20181123201030}}
         | {{#if:  || }}Vorlage:Webarchiv/Wartung/DatumDer Wert des Parameters {{#if: wayback | wayback | Datum }} muss ein gültiger Zeitstempel der Form YYYYMMDDHHMMSS sein!
         | {{#if: Ähnlichkeitsmaße für Vektoren | {{#invoke:WLink|getEscapedTitle|Ähnlichkeitsmaße für Vektoren}} | {{#invoke:Webarchiv|getdomain|http://kontext.fraunhofer.de/haenelt/kurs/folien/VektorAehnlichkeit-2.pdf}} }} {{#ifeq:  | [] | [ | ( }}Memento{{#if: {{#if: 2025-07-29 05:38:05 InternetArchiveBot | 2025-07-29 05:38:05 InternetArchiveBot |  }} |  des Vorlage:Referrer }} vom {{#time: j. F Y|20181123201030}} im Internet Archive{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
      }}
  }}
      | {{#if:
          | {{#iferror: {{#time: j. F Y|{{{webciteID}}}}}
    | {{#switch: {{#invoke:Str|len|{{{webciteID}}}}}
       | 16= {{#if: Ähnlichkeitsmaße für Vektoren | {{#invoke:WLink|getEscapedTitle|Ähnlichkeitsmaße für Vektoren}} | {{#invoke:Webarchiv|getdomain|http://kontext.fraunhofer.de/haenelt/kurs/folien/VektorAehnlichkeit-2.pdf}} }} {{#ifeq:  | [] | [ | ( }}Memento{{#if: {{#if: 2025-07-29 05:38:05 InternetArchiveBot | 2025-07-29 05:38:05 InternetArchiveBot |  }} |  des Vorlage:Referrer }} vom {{#time: j. F Y| 19700101000000 + {{#expr: floor {{#expr: {{#invoke:Str|sub|{{{webciteID}}}|1|10}}/86400}} }} days}} auf WebCite{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
       | 9 = {{#if: Ähnlichkeitsmaße für Vektoren | {{#invoke:WLink|getEscapedTitle|Ähnlichkeitsmaße für Vektoren}} | {{#invoke:Webarchiv|getdomain|http://kontext.fraunhofer.de/haenelt/kurs/folien/VektorAehnlichkeit-2.pdf}} }} {{#ifeq:  | [] | [ | ( }}Memento{{#if: {{#if: 2025-07-29 05:38:05 InternetArchiveBot | 2025-07-29 05:38:05 InternetArchiveBot |  }} |  des Vorlage:Referrer}} vom {{#time: j. F Y| 19700101000000 + {{#expr: floor {{#expr: {{#invoke:Str|sub|{{#invoke:Expr|base62|{{{webciteID}}}}}|1|10}}/86400}} }} days}} auf WebCite{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
       | #default= Der Wert des Parameters {{#if: webciteID | webciteID | ID }} muss entweder ein Zeitstempel der Form YYYYMMDDHHMMSS oder ein Schüsselwert mit 9 Zeichen oder eine 16-stellige Zahl sein!Vorlage:Webarchiv/Wartung/webcitation{{#if:  || }}
      }}
    | c|{{{webciteID}}}}} {{#if: Ähnlichkeitsmaße für Vektoren | {{#invoke:WLink|getEscapedTitle|Ähnlichkeitsmaße für Vektoren}} | {{#invoke:Webarchiv|getdomain|http://kontext.fraunhofer.de/haenelt/kurs/folien/VektorAehnlichkeit-2.pdf}} }} (Memento{{#if: {{#if: 2025-07-29 05:38:05 InternetArchiveBot | 2025-07-29 05:38:05 InternetArchiveBot |  }} |  des Vorlage:Referrer}} vom {{#time: j. F Y|{{{webciteID}}}}} auf WebCite{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
  }}
          | {{#if: 
              | Vorlage:Webarchiv/Today
              | {{#if:
                      | Vorlage:Webarchiv/Generisch
                      | {{#if: Ähnlichkeitsmaße für Vektoren | {{#invoke:WLink|getEscapedTitle|Ähnlichkeitsmaße für Vektoren}} | {{#invoke:Webarchiv|getdomain|http://kontext.fraunhofer.de/haenelt/kurs/folien/VektorAehnlichkeit-2.pdf}} }}  
                 }}}}}}}}{{#if:2025-07-29 05:38:05 InternetArchiveBot
    | Vorlage:Webarchiv/archiv-bot
  }}{{#invoke:TemplatePar|check
     |all      = url=
     |opt      = text= wayback= webciteID= archive-is= archive-today= archiv-url= archiv-datum= ()= archiv-bot= format= original=
     |cat      = Wikipedia:Vorlagenfehler/Vorlage:Webarchiv
     |errNS    = 0
     |template = Vorlage:Webarchiv
     |format   = *
     |preview  = 1
  }}{{#ifexpr: {{#if:20181123201030|1|0}}{{#if:|+1}}{{#if:|+1}}{{#if:|+1}}{{#if:|+1}} <> 1
    | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Genau einer der Parameter 'wayback', 'webciteID', 'archive-today', 'archive-is' oder 'archiv-url' muss angegeben werden.|1}}
  }}{{#if: 
    | {{#switch: {{#invoke:Webarchiv|getdomain|{{{archiv-url}}}}}
        | web.archive.org = 
          {{#if:  || }}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Im Parameter 'archiv-url' wurde URL von Internet Archive erkannt, bitte Parameter 'wayback' benutzen.|1}} 
        | webcitation.org = 
          {{#if:  || }}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Im Parameter 'archiv-url' wurde URL von WebCite erkannt, bitte Parameter 'webciteID' benutzen.|1}} 
        | archive.today |archive.is |archive.ph |archive.fo |archive.li |archive.md |archive.vn = 
          {{#if:  || }}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Im Parameter 'archiv-url' wurde URL von archive.today erkannt, bitte Parameter 'archive-today' benutzen.|1}}
      }}{{#if: 
         | {{#iferror: {{#iferror:{{#invoke:Vorlage:FormatDate|Execute}}|}}
             | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Der Wert des Parameter 'archiv-datum' ist ungültig oder hat ein ungültiges Format.|1}}
          |  }} 
         | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Der Pflichtparameter 'archiv-datum' wurde nicht angegeben.|1}}
      }}
    | {{#if: 
         | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Der Parameter 'archiv-datum' ist nur in Verbindung mit 'archiv-url' angebbar.|1}}
      }}
  }}{{#if:{{#invoke:URLutil|isHostPathResource|http://kontext.fraunhofer.de/haenelt/kurs/folien/VektorAehnlichkeit-2.pdf}}
    || {{#if:  || }}
  }}{{#if: Ähnlichkeitsmaße für Vektoren
    | {{#if: {{#invoke:WLink|isBracketedLink|Ähnlichkeitsmaße für Vektoren}}
        | {{#if:  || }}
      }}
    | {{#if:  || }}Vorlage:Webarchiv/Wartung/Linktext_fehlt
  }}{{#switch: 
    |addlarchives|addlpages= {{#if:  || }}{{#if: 1 |Vorlage:Webarchiv/Wartung/Parameter}}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: enWP-Wert im Parameter 'format'.|1}}
  }}{{#ifeq: {{#invoke:Str|find|http://kontext.fraunhofer.de/haenelt/kurs/folien/VektorAehnlichkeit-2.pdf%7Carchiv}} |-1
    || {{#ifeq: {{#invoke:Str|find|{{#invoke:Str|cropleft|http://kontext.fraunhofer.de/haenelt/kurs/folien/VektorAehnlichkeit-2.pdf%7C4}}%7Chttp}} |-1
         || {{#switch: {{#invoke:Webarchiv|getdomain|http://kontext.fraunhofer.de/haenelt/kurs/folien/VektorAehnlichkeit-2.pdf }}
              | abendblatt.de | daserste.ndr.de | inarchive.com | webcitation.org = 
              | #default = {{#if:  || }}{{#if: 1 |Vorlage:Webarchiv/Wartung/URL}}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Archiv-URL im Parameter 'url' anstatt URL der Originalquelle. Entferne den vor der Original-URL stehenden Mementobestandteil und setze den Archivierungszeitstempel in den Parameter 'wayback', 'webciteID', 'archive.today' oder 'archive-is' ein, sofern nicht bereits befüllt.|1}}
            }} 
       }}
  }} bei Fraunhofer. Abgerufen am 23. November 2018.</ref><ref>Jaccard-Koeffizient in Hans Friedrich Eckey, Reinhold Kosfeld, Martina Rengers: Multivariate Statistik, Betriebswirtschaftlicher Verlag Dr. Th. Gabler GmbH, Wiesbaden, 2002, ISBN 3-409-11969-8, S. 219. Abgerufen am 23. November 2018.</ref>

Speziell wird der Jaccard-Koeffizient für automatische Texterkennung und Interpretation eingesetzt.<ref>Jaccard-Koeffizient bei seo-suedwes. Abgerufen am 23. November 2018.</ref>

Definition

Um den Jaccard-Koeffizient zweier Mengen zu berechnen, teilt man die Anzahl der gemeinsamen Elemente (Schnittmenge) durch die Größe der Vereinigungsmenge:

<math>J(A,B) = \frac{|A \cap B|}{|A \cup B|}</math>.

Für <math>n</math> Mengen gilt

<math>J(S_1, S_2, \dotsc, S_n) = \frac{|S_1 \cap S_2 \cap\dotsb\cap S_n |}{|S_1 \cup S_2 \cup\dotsb\cup S_n |}</math>.

Je näher der Jaccard-Koeffizient an 1 liegt, desto größer ist die Ähnlichkeit der Mengen. Der minimale Wert des Jaccard-Koeffizienten ist 0.

Beispiel

Die beiden Mengen <math>A=\{1,2,3,4,7\}</math> und <math>B=\{1,4,5,7,9\}</math> haben den Jaccard-Koeffizienten

<math>\frac{|A\cap B|}{|A\cup B|}=\frac{|\{1,4,7\}|}{|\{1,2,3,4,5,7,9\}|}=\frac37=0{,}428\dotso</math>

Jaccard-Metrik

Aus dem Jaccard-Koeffizienten lässt sich die Jaccard-Metrik (auch „Jaccard-Distanz“ genannt) ableiten. Diese ist ein Maß für die Unähnlichkeit. Diese Metrik berechnet sich nach der Formel

<math> J_{\delta}(A,B) = d_J (A,B) = 1 - J(A,B) = \frac{ |A \cup B| - |A \cap B| }{ |A \cup B| }</math>.

Allgemein:

<math> J_{\delta}(S_1, S_2, \dotsc, S_n) = d_J (S_1, S_2, \dotsc, S_n) = 1 - J(S_1, S_2, \dotsc, S_n) = \frac{|S_1 \cup S_2 \cup \dotsb\cup S_n | - |S_1 \cap S_2 \cap \dotsb\cap S_n |}{|S_1 \cup S_2 \cup \dotsb \cup S_n |}</math>.

Je näher die Jaccard-Metrik an 0 liegt, desto näher liegen die Mengen A und B beieinander, weil sie sich sehr ähnlich sind. Der maximale Wert der Jaccard-Metrik ist 1. Dann sind die Mengen überschneidungsfrei.

Anwendungen

Im Bereich Textmining und hier insbesondere der Duplikaterkennung ist die Jaccard-Ähnlichkeit ein bekanntes Maß für die Ähnlichkeit zweier Elemente. Dabei werden zwei Strings in Token zerlegt (z. B. geteilt an den Leerzeichen oder unter Verwendung von N-Grammen mit <math>N > 1</math>). Die daraus entstehenden Mengen an Stringabschnitten werden wie oben beschrieben zur Berechnung der Ähnlichkeit der beiden Mengen verwendet.<ref>{{#invoke:Vorlage:Literatur|f}}</ref>

Einzelnachweise

<references />