Verbindungsanalyse

Im Netzwerktheorie, Verbindungsanalyse ist ein Datenanalyse Technik zur Bewertung von Beziehungen (Verbindungen) zwischen Knoten. Beziehungen können zwischen verschiedenen Arten von Knoten (Objekten) identifiziert werden, einschließlich Organisationen, Personen und Transaktionen. Die Verbindungsanalyse wurde zur Untersuchung krimineller Aktivitäten verwendet (Entdeckung eines Betruges, Anti-Terrorismus, und Intelligenz), Computersicherheitsanalyse, Suchmaschinenoptimierung, Marktforschung, medizinische Forschungund Kunst.

Wissensentdeckung

Wissensentdeckung ist ein iterativ und interaktiv Prozess verwendet zu identifizierenAnalysieren und visualisieren Sie Muster in Daten.[1] Netzwerkanalyse, Verbindungsanalyse und Analyse des sozialen Netzwerks sind alle Methoden der Wissensfindung, jeweils eine entsprechende Teilmenge der vorherigen Methode. Die meisten Methoden zur Entdeckung von Wissen folgen diesen Schritten (auf höchstem Niveau):[2]

  1. Datenverarbeitung
  2. Transformation
  3. Analyse
  4. Visualisierung

Datenerfassung und -verarbeitung erfordert Zugriff auf Daten und haben mehrere inhärente Probleme, einschließlich Informationsüberlastung und Datenfehler. Sobald die Daten gesammelt sind, muss sie in ein Format umgewandelt werden, das sowohl von Menschen- als auch von Computeranalysatoren effektiv eingesetzt werden kann. Manuelle oder computergenerierte Visualisierungs-Tools können aus den Daten, einschließlich Netzwerkdiagrammen, abgebildet werden. Es gibt mehrere Algorithmen, um bei der Analyse von Daten zu helfen - Dijkstra -Algorithmus, Breite-First-Suche, und Tiefe-First-Suche.

Die Linkanalyse konzentriert sich auf die Analyse von Beziehungen zwischen Knoten durch Visualisierungsmethoden (Netzwerkdiagramme, Assoziationsmatrix). Hier ist ein Beispiel für die Beziehungen, die für Kriminalstoffe zu kartieren sind:[3]

Beziehung/Netzwerk Datenquellen
1. Vertrauen Frühere Kontakte in Familie, Nachbarschaft, Schule, Militär, Verein oder Organisation. Öffentliche und Gerichtsakten. Daten sind möglicherweise nur im Heimatland von Verdächtigen verfügbar.
2. Aufgabe Protokolle und Aufzeichnungen von Telefonanrufen, elektronischer E -Mails, Chatrooms, Sofortnachrichten, Website -Besuche. Reiseaufzeichnungen. Menschliche Intelligenz: Beobachtung von Treffen und Besucherzahlen bei gemeinsamen Veranstaltungen.
3. Geld & Ressourcen Bankkonto- und Geldübertragungsunterlagen. Muster und Ort der Kreditkartenverwendung. Vorherige Gerichtsakten. Menschliche Intelligenz: Beobachtung von Besuchen in alternativen Bankressourcen wie z. Hawala.
4. Strategie und Ziele Websites. Videos und verschlüsselte Datenträger, die von Courier geliefert werden. Reiseaufzeichnungen. Menschliche Intelligenz: Beobachtung von Treffen und Besucherzahlen bei gemeinsamen Veranstaltungen.

Die Verbindungsanalyse wird für 3 primäre Zwecke verwendet:[4]

  1. Finden Sie Übereinstimmungen in Daten für bekannte Interessensmuster;
  2. Finden Sie Anomalien, bei denen bekannte Muster verletzt werden;
  3. Entdecken Sie neue Interessenmuster (Analyse des sozialen Netzwerks, Data Mining).

Geschichte

Klerks kategorisierte Linkanalyse -Tools in 3 Generationen.[5] Die erste Generation wurde 1975 als ANACPAPA -Diagramm von Harper und Harris eingeführt.[6] Diese Methode erfordert, dass ein Domänenexperte Datendateien überprüft, Assoziationen identifiziert, indem sie eine Assoziationsmatrix erstellen, ein Link -Diagramm für die Visualisierung erstellen und schließlich das Netzwerkdiagramm analysieren, um interessierende Muster zu identifizieren. Diese Methode erfordert umfangreiches Domänenwissen und ist bei der Überprüfung großer Datenmengen äußerst zeitaufwändig.

Assoziationsmatrix

Zusätzlich zur Assoziationsmatrix kann die Aktivitätsmatrix verwendet werden, um umsetzbare Informationen zu erstellen, die praktischen Wert und zur Strafverfolgung verwendet werden. Die Aktivitätenmatrix, wie der Begriff impliziert, konzentriert sich auf die Handlungen und Aktivitäten von Menschen in Bezug auf Standorte. Während sich die Assoziationsmatrix auf die Beziehungen zwischen Menschen, Organisationen und/oder Eigenschaften konzentriert. Die Unterscheidung zwischen diesen beiden Arten von Matrizen ist zwar geringfügig, ist jedoch in Bezug auf die Ausgabe der abgeschlossenen oder gerenderten Ausgabe der Ausgabe der Analyse signifikant.[7][8][9][10]

Tools der zweiten Generation bestehen aus automatisch-basierten Analyse-Tools für grafische Analyse wie das Notebook des IBM I2-Analysten, NetMAP, Cluemaker und Watson. Diese Tools bieten die Möglichkeit, die Konstruktion und Aktualisierungen des Link -Diagramms zu automatisieren, sobald eine Assoziationsmatrix manuell erstellt wurde. Die Analyse der resultierenden Diagramme und Grafiken erfordert jedoch weiterhin einen Experten mit umfangreichem Domänenkenntnis.

Die dritte Generation von Link-Analyse-Tools wie DataWalk ermöglicht die automatische Visualisierung von Verknüpfungen zwischen Elementen in einem Datensatz, die dann als Leinwand für weitere Erkundungs- oder manuelle Aktualisierungen dienen können.

Anwendungen

  • FBI gewalttätiges kriminelles Besorgnis (Vicap)
  • Iowa State Sexual Crimes Analysis System
  • Minnesota State Sexual Crimes Analysis System (MIN/SCAP)
  • Washington State Mord Investigation Tracking System (Hits)[11]
  • New York State Mord Investigation & Lead Tracking (Halt)
  • New Jersey Mord Evaluation & Assessment Tracking (Hitze)[12]
  • Pennsylvania State ATAC -Programm.
  • Gewaltkriminalitätsverbindungsanalysesystem (Viclas)[13]

Probleme mit der Linkanalyse

Informationsüberlastung

Mit den enormen Daten und Informationen, die elektronisch gespeichert werden, werden Benutzer mit mehreren nicht verwandten Informationsquellen konfrontiert, die für die Analyse zur Verfügung stehen. Datenanalysetechniken sind erforderlich, um die Daten effektiv und effizient zu nutzen. Palshikar klassifiziert Datenanalysetechniken in zwei Kategorien - ((statistisch Modelle, Zeitreihenanalyse, Clustering und Einstufung, passende Algorithmen zum Erkennen von Anomalien) und künstliche Intelligenz (KI) Techniken (Data Mining, Expertensysteme, Mustererkennung, Techniken für maschinelles Lernen, Neuronale Netze).[14]

Bolton & Hand definieren die statistische Datenanalyse entweder als beaufsichtigte oder unbeaufsichtigte Methoden.[15] Überwachende Lernmethoden verlangen, dass Regeln im System definiert werden, um festzustellen, was erwartet wird oder unerwartetes Verhalten ist. Unbeaufsichtigte Lernmethoden Überprüfen Sie die Daten im Vergleich zur Norm und erkennen Sie statistische Ausreißer. Überwachende Lernmethoden sind in den Szenarien begrenzt, die mit dieser Methode behandelt werden können, dass Schulungsregeln auf der Grundlage früherer Muster festgelegt werden. Unüberwachte Lernmethoden können jedoch eine Erkennung breiterer Probleme liefern, können jedoch zu einem höheren falsch positiven Verhältnis führen, wenn die Verhaltensnorm nicht gut etabliert oder verstanden ist.

Daten selbst haben inhärente Probleme, einschließlich Integrität (oder mangelnder) und kontinuierlicher Veränderungen. Daten können „Fehler von Auslassung und Provision aufgrund fehlerhafter Sammlung oder Handhabung enthalten und wenn Unternehmen aktiv versuchen, ihre Handlungen zu täuschen und/oder zu verbergen“.[4] Spatz[16] Die Unvollständigkeit (Unvermeidbarkeit fehlender Daten oder Links), Fuzzy-Grenzen (Subjektivität bei der Entscheidung, was zu entscheiden) und dynamische Änderungen (Erkenntnis, dass sich die Daten ständig ändern) als drei primäre Probleme bei der Datenanalyse.[3]

Sobald die Daten in ein verwendbares Format umgewandelt werden, können Probleme mit der offenen Textur und Kreuzungsproblemen auftreten. Offene Textur wurde definiert von Waismann als unvermeidbare Unsicherheit in Bedeutung, wenn empirische Begriffe in verschiedenen Kontexten verwendet werden.[17] Die Unsicherheit in Bezug auf Begriffe zeigt Probleme beim Versuch, Referenzdaten aus mehreren Quellen zu suchen und zu überschreiten.[18]

Die primäre Methode zur Lösung von Datenanalyseproblemen ist der Abhängigkeit Fachwissen von einem Experten. Dies ist eine sehr zeitaufwändige und kostspielige Methode zur Durchführung von Verbindungsanalysen und hat eigene Probleme. McGrath et al. Schließen Sie zu dem Schluss, dass das Layout und die Präsentation eines Netzwerkdiagramms erhebliche Auswirkungen auf die „Wahrnehmung der Existenz von Gruppen in Netzwerken“ des Benutzers haben.[19] Selbst die Verwendung von Domänenexperten kann zu unterschiedlichen Schlussfolgerungen führen, da die Analyse subjektiv sein kann.

Strafverfolgung vs. Kriminalprävention

Linkanalysetechniken wurden in erster Linie für die Strafverfolgung verwendet, da es weitaus einfacher ist, historische Daten für Muster zu überprüfen, als zu versuchen, zukünftige Maßnahmen vorherzusagen.

Krebs zeigte die Verwendung einer Assoziationsmatrix und einer Link -Tabelle des Terroristennetzwerks, die mit den 19 für die verantwortlichen Entführern verbunden sind 11. September Angriffe Durch die Zuordnung öffentlich verfügbarer Details, die nach den Angriffen verfügbar gemacht wurden.[3] Selbst mit den Vorteilen im Nachhinein und den öffentlich verfügbaren Informationen zu Personen, Orten und Transaktionen ist klar, dass fehlende Daten fehlen.

Alternativ argumentierte Picarelli, dass die Verwendung von Verbindungsanalysetechniken verwendet werden könnte, um illegale Aktivitäten innerhalb der zu identifizieren und möglicherweise zu verhindern Aum Shinrikyo Netzwerk.[20] „Wir müssen auf" Schuld durch Vereinigung "achten. Mit einem Terroristen verbunden zu sein, ist keine Schuld, sondern lädt eine Untersuchung ein. “[3] Ausgleich der rechtlichen Konzepte von wahrscheinliche Ursache, Recht auf Privatsphäre und Vereinigungsfreiheit Wenn Sie potenziell sensible Daten mit dem Ziel überprüft, Kriminalität oder illegale Aktivitäten zu verhindern, die noch nicht aufgetreten sind, werden potenziell sensible Daten überprüft.

Vorgeschlagene Lösungen

Es gibt vier Kategorien vorgeschlagener Linkanalyse -Lösungen:[21]

  1. Heuristisch basiert
  2. Vorlagebasiert
  3. Ähnlichkeitsbasiert
  4. Statistisch

Heuristische Tools verwenden Entscheidungsregeln, die unter Verwendung strukturierter Daten aus fachkundigen Kenntnissen destilliert werden. Template-basierte Tools angewendet Verarbeitung natürlicher Sprache (NLP) Details aus extrahieren aus unstrukturierte Daten die mit vordefinierten Vorlagen übereinstimmen. Ähnlichitätsbasierte Ansätze verwenden gewichtet Wertung Um Attribute zu vergleichen und potenzielle Links zu identifizieren. Statistische Ansätze identifizieren potenzielle Verbindungen auf der Grundlage lexikalischer Statistiken.

Cremenet Explorer

J.J. Xu und H. Chen schlagen ein Framework für die automatisierte Netzwerkanalyse und Visualisierung als Cremenet Explorer vor.[22] Dieser Rahmen enthält die folgenden Elemente:

  • Netzwerkerstellung durch einen Konzeptraumansatz, der verwendet “Auftreten Gewicht zur Messung der Frequenz, mit der zwei Wörter oder Phrasen im selben Dokument erscheinen. Je häufiger zwei Wörter oder Phrasen zusammen erscheinen, desto wahrscheinlicher ist es, dass sie verwandt sind. “[22]
  • Netzwerkpartition unter Verwendung „hierarchischer Clustering, um ein Netzwerk in Untergruppen auf der Grundlage der relationalen Stärke aufzuteilern“.[22]
  • Strukturanalyse durch „drei Zentralitätsmaße (Grad, Zwischenheit und Nähe) zur Identifizierung von zentralen Mitgliedern in einer bestimmten Untergruppe.[22] Cremenet Explorer beschäftigt Dijkstra's kürzester Path-Algorithmus Berechnung der Zwischenheit und der Nähe von einem einzelnen Knoten zu allen anderen Knoten in der Untergruppe.
  • Netzwerkvisualisierung mithilfe der Metrik von Torgerson Mehrdimensionale Skalierung (MDS) Algorithmus.

Verweise

  1. ^ Inc., das TOR -Projekt. "Tor Projekt: Übersicht".
  2. ^ Ahonen, H., Merkmale von Wissensfindungssystemen.
  3. ^ a b c d Krebs, V. E. 2001, Kartierung von Netzwerken von Terrorzellen Archiviert 2011-07-20 im Wayback -Maschine, Verbindungen 24, 43–52.
  4. ^ Klerks, P. (2001). "Das Netzwerkparadigma galt für kriminelle Organisationen: theoretisches Nitpicking oder eine relevante Doktrin für Ermittler? Jüngste Entwicklungen in den Niederlanden". Verbindungen. 24: 53–65. Citeseerx 10.1.1.129.4720.
  5. ^ Harper und Harris, Analyse der jährlichen Versammlungen der kriminellen Intelligenz, der menschlichen Faktoren und der Ergonomiegesellschaft, 19 (2), 1975, S. 232-238.
  6. ^ Pike, John. "FMI 3-07.22 Anhang F Intelligence Analysis Tools und Indikatoren".
  7. ^ Analyse der sozialen Netzwerk und andere analytische Tools Archiviert 2014-03-08 bei der Wayback -Maschine
  8. ^ MSFC, Rebecca Whitaker (10. Juli 2009). "Luftfahrtanleitung - Aktivitätsmatrizen". Archiviert von das Original am 17. Januar 2008.
  9. ^ Persönlichkeits-/Aktivitätsmatrix Archiviert 2014-03-08 bei der Wayback -Maschine
  10. ^ "Archivierte Kopie". Archiviert von das Original Am 2010-10-21. Abgerufen 2010-10-31.{{}}: CS1 Wartung: Archiviertes Kopie als Titel (Link)
  11. ^ "Archivierte Kopie". Archiviert von das Original am 2009-03-25. Abgerufen 2010-10-31.{{}}: CS1 Wartung: Archiviertes Kopie als Titel (Link)
  12. ^ "Archivierte Kopie". Archiviert von das Original Am 2010-12-02. Abgerufen 2010-10-31.{{}}: CS1 Wartung: Archiviertes Kopie als Titel (Link)
  13. ^ Palshikar, G. K., Die versteckte Wahrheit, Intelligent Enterprise, Mai 2002.
  14. ^ Bolton, R. J. & Hand, D. J., Statistische Betrugserkennung: A Review, Statistical Science, 2002, 17 (3), S. 235-255.
  15. ^ Sparrow M.K. 1991. Netzwerkschwachstellen und strategische Intelligenz in der Strafverfolgung “, Internationales Journal of Intelligence and Counterintelliging Vol. 5 #3.
  16. ^ Friedrich Waismann, Überprüfbarkeit (1945), S.2.
  17. ^ Lyons, D.,, Offene Textur und die Möglichkeit der rechtlichen Auslegung (2000).
  18. ^ C. McGrath, J. Blythe, D. Krackhardt, D., Gruppen in Grafiklayouts sehen.
  19. ^ Picarelli, J. T.,, Indikationen und Warnung transnationaler Bedrohung: Der Nutzen der Gruppe für Netzwerkanalyse, Militär- und Geheimdiensteanalysegruppe Archiviert 2016-03-11 bei der Wayback -Maschine.
  20. ^ Schroeder et al., Automatisierte kriminelle Verbindungsanalyse basierend auf Domainwissen, Journal der American Society for Information Science and Technology, 58: 6 (842), 2007.
  21. ^ a b c d Xu, J.J. & Chen, H., Cremenet Explorer: Ein Rahmen für kriminelle Netzwerkkenntnisse, ACM-Transaktionen auf Informationssysteme, 23 (2), April 2005, S. 201-226.

Externe Links