Data mining

Data Mining ist der Prozess des Extrahierens und Entdeckens von Mustern groß Datensätze Einbeziehung von Methoden am Schnittpunkt von maschinelles Lernen, Statistiken, und Datenbanksysteme.[1] Data Mining ist ein interdisziplinär Unterfeld von Informatik und Statistiken Mit einem Gesamtziel, Informationen (mit intelligenten Methoden) aus einem Datensatz zu extrahieren und die Informationen zur weiteren Verwendung in eine verständliche Struktur umzuwandeln.[1][2][3][4] Data Mining ist der Analyseschritt des Prozesss "Wissenserkennung in Datenbanken" oder KDD.[5] Neben dem RAW -Analyseschritt umfasst es auch Datenbank und Datenmanagement Aspekte, Datenvorverarbeitung, Modell und Inferenz Überlegungen, interessante Metriken, Komplexität Überlegungen, Nachbearbeitung entdeckter Strukturen, Visualisierung, und Online -Aktualisierung.[1]

Der Begriff "Data Mining" ist a Fehlbezeichnung Weil das Ziel die Extraktion von Mustern und Kenntnissen aus großen Datenmengen ist, nicht die Extraktion (Bergbau) von Daten selbst.[6] Es ist auch a Schlagwort[7] und wird häufig auf eine beliebige Form von großen Daten angewendet oder Informationsverarbeitung (Sammlung, Extraktion, Lagerung, Analyse und Statistiken) sowie jede Anwendung von Computerentscheidungsunterstützungssystem, einschließlich künstliche Intelligenz (z. B. maschinelles Lernen) und Business Intelligence. Das Buch Data Mining: Tools und Techniken für maschinelles Lernen mit Java[8] (Das meist maschinelles Lernen abdeckt) sollte ursprünglich benannt werden Praktisches maschinelles Lernenund der Begriff Data Mining wurde nur aus Marketinggründen hinzugefügt.[9] Oft die allgemeineren Begriffe (großes Maßstab) Datenanalyse und Analyse- oder bei Bezug auf tatsächliche Methoden, künstliche Intelligenz und maschinelles Lernen- sind angemessener.

Die tatsächliche Data Mining-Aufgabe ist die semiautomatische oder automatische Analyse großer Datenmengen, um bisher unbekannte, interessante Muster wie Gruppen von Datenaufzeichnungen zu extrahieren (Clusteranalyse), ungewöhnliche Aufzeichnungen (Anomalieerkennung), und Abhängigkeiten (Assoziationsregel Mining, Sequentielle Musterabbau). Dies beinhaltet normalerweise die Verwendung von Datenbanktechniken wie z. räumliche Indizes. Diese Muster können dann als eine Art Zusammenfassung der Eingabedaten angesehen werden und können in der weiteren Analyse oder beispielsweise in maschinellem Lernen und verwendet werden Prädiktive Analytics. Beispielsweise kann der Data Mining -Schritt mehrere Gruppen in den Daten identifizieren, die dann verwendet werden können, um genauere Vorhersageergebnisse durch a zu erhalten System zur Entscheidungsfindung. Weder die Datenerfassung, die Datenvorbereitung noch die Interpretation und Berichterstattung von Ergebnissen sind Teil des Data Mining -Schritts, obwohl sie zum GesamtkDD -Prozess als zusätzliche Schritte gehören.

Der Unterschied zwischen Datenanalyse und Data Mining ist, dass die Datenanalyse verwendet wird, um Modelle und Hypothesen am Datensatz zu testen, z. B. die Analyse der Wirksamkeit von a Vermarktungskampagneunabhängig von der Datenmenge. Im Gegensatz dazu verwendet Data Mining maschinelles Lernen und statistische Modelle, um Klassen- oder versteckte Muster in einem großen Datenvolumen aufzudecken.[10]

Die damit verbundenen Begriffe Datenbagger, Datenfischen, und Daten-Snooping Siehe die Verwendung von Data -Mining -Methoden zu Teilen eines größeren Bevölkerungsdatensatzes, die zu klein sind (oder sind), um zuverlässige statistische Schlussfolgerungen über die Gültigkeit aller entdeckten Muster zu erfolgen. Diese Methoden können jedoch zur Erstellung neuer Hypothesen verwendet werden, um gegen die größeren Datenpopulationen zu testen.

Etymologie

In den 1960er Jahren verwendeten Statistiker und Ökonomen Begriffe wie Datenfischen oder Datenbagger zu beziehen, was sie als schlechte Praxis der Analyse von Daten ohne eine betrachteten a-priori Hypothese. Der Begriff "Data Mining" wurde vom Ökonom auf ähnlich kritische Weise verwendet Michael Lovell In einem Artikel in der Überprüfung der Wirtschaftsstudien 1983.[11][12] Lovell weist darauf hin, dass die Praxis "Maskeren unter einer Vielzahl von Aliase, von" Experimentieren "(positiv) bis" Fischen "oder" Snooping "(negativ) reichen.

Der Begriff Data Mining erschien um 1990 in der Datenbankgemeinschaft mit allgemein positiven Konnotationen. Für kurze Zeit in den 1980er Jahren wurde ein Phrase "Datenbankmining" ™ verwendet, aber da sie von HNC eingetragen wurde, wurde a San Diego-basierte Firma, um ihre Datenbankabbau -Workstation zu steigern;[13] Forscher wandten sich folglich an Data Mining. Andere verwendete Begriffe umfassen Datenarchäologie, Informationsernutzung, Informationsentdeckung, Wissensextraktion, etc. Gregory Piatetsky-Shapiro geprägt den Begriff "Wissenskondeckung in Datenbanken" für den ersten Workshop zum gleichen Thema (KDD-1989) Und dieser Begriff wurde in beliebterer Ai und maschinelles Lernen Gemeinschaft. Der Begriff Data Mining wurde jedoch in den Geschäfts- und Pressegemeinschaften beliebter.[14] Derzeit die Bedingungen Data Mining und Wissensentdeckung werden austauschbar verwendet.

In der akademischen Gemeinschaft begannen die wichtigsten Forums for Research 1995, als die erste internationale Konferenz über Data Mining and Knowledge Discovery (KDD-95) in Montreal unter gestartet wurde Aaai Sponsoring. Es wurde Co-Vorsitzender von Usama Fayyad und Ramasamy Uthurusamy. Ein Jahr später, 1996, startete Usama Fayyad das Journal von Kluwer genannt Data Mining und Wissensentdeckung als Gründungsredakteurin. Später begann er das Sigkdd Newsletter Sigkdd Explorations.[15] Die KDD International Conference wurde zur Hauptkonferenz höchster Qualität im Data Mining mit einer Akzeptanzrate von Forschungsarbeiten unter 18%. Das Tagebuch Data Mining und Wissensentdeckung ist das primäre Forschungsjournal des Feldes.

Hintergrund

Die manuelle Extraktion von Mustern von Daten ist seit Jahrhunderten aufgetreten. Frühe Methoden zur Identifizierung von Mustern in Daten umfassen Bayes 'Theorem (1700er Jahre) und Regressionsanalyse (1800er).[16] Die Proliferation, Allgegenwart und die zunehmende Leistung der Computertechnologie haben die Fähigkeit zur Datenerfassung, Speicherung und Manipulationen dramatisch erhöht. Wie Datensätze Die Größe und Komplexität haben zugewachsen. Die direkte "praktische" Datenanalyse wurde zunehmend durch indirekte, automatisierte Datenverarbeitung erweitert, unterstützt durch andere Entdeckungen in der Informatik, insbesondere im Bereich des maschinellen Lernens, wie z. B. Neuronale Netze, Clusteranalyse, genetische Algorythmen (1950er Jahre), Entscheidungsbäume und Entscheidungsregeln (1960er Jahre) und Support-Vektor-Maschinen (1990er Jahre). Data Mining ist der Prozess der Anwendung dieser Methoden mit der Absicht, verborgene Muster aufzudecken.[17] In großen Datensätzen. Es überbrückt die Lücke von angewendete Statistiken und künstliche Intelligenz (die normalerweise den mathematischen Hintergrund liefern) zu Datenbankmanagement Durch die Nutzung der Art und Weise, wie Daten in Datenbanken gespeichert und indiziert werden, um die tatsächlichen Lern- und Erkennungsalgorithmen effizienter auszuführen, sodass solche Methoden auf immer größere Datensätze angewendet werden können.

Verfahren

Das KDD -Prozess (Knowledge Discovery in Datenbanken) wird üblicherweise mit den Stufen definiert:

  1. Auswahl
  2. Vorverarbeitung
  3. Transformation
  4. Data Mining
  5. Interpretation/Bewertung.[5]

Es existiert jedoch in vielen Variationen dieses Themas wie dem Querbetriebsstandardprozess für Data Mining (Crisp-DM), das sechs Phasen definiert:

  1. Geschäftsverständnis
  2. Datenverständnis
  3. Datenaufbereitung
  4. Modellieren
  5. Auswertung
  6. Einsatz

oder einen vereinfachten Prozess wie (1) Vorverarbeitung, (2) Data Mining und (3) Ergebnissevalidierung.

Umfragen, die in den Jahren 2002, 2004, 2007 und 2014 durchgeführt wurden, zeigen, dass die CRISP-DM-Methodik die führende Methodik ist, die von Data Miners verwendet wird.[18] Der einzige andere in diesen Umfragen genannte Data Mining -Standard war Semma. 3–4-mal so viele Menschen berichteten jedoch mit Crisp-DM. Mehrere Forscherteams haben Überprüfungen von Data Mining -Prozessmodellen veröffentlicht.[19] und Azevedo und Santos führten 2008 einen Vergleich von Crisp-DM und SEMMA durch.[20]

Vorverarbeitung

Bevor Data Mining -Algorithmen verwendet werden können, muss ein Zieldatensatz zusammengestellt werden. Da Data Mining nur in den Daten aufdecken kann, muss der Zieldatensatz groß genug sein, um diese Muster zu enthalten und gleichzeitig präzise genug zu sein, um innerhalb einer akzeptablen Frist abzubauen. Eine gemeinsame Quelle für Daten ist a Datenmarkt oder Data Warehouse. Vorverarbeitung ist wichtig, um die zu analysieren multivariate Datensätze vor dem Data Mining. Das Zielsatz wird dann gereinigt. Die Datenreinigung beseitigt die enthaltenen Beobachtungen, die enthalten sind Lärm und diejenigen mit fehlende Daten.

Data Mining

Data Mining umfasst sechs gemeinsame Klassen von Aufgaben:[5]

  • Anomalieerkennung (Ausreißer-/Änderungs-/Abweichungserkennung) - Die Identifizierung ungewöhnlicher Datensätze, die interessante oder Datenfehler sein können, die weitere Untersuchungen erfordern.
  • Assoziationsregel -Lernen (Abhängigkeitsmodellierung) - Suche nach Beziehungen zwischen Variablen. Beispielsweise kann ein Supermarkt Daten zu Kundeneinkaufsgewohnheiten sammeln. Mithilfe der Assoziationsregel -Lernen kann der Supermarkt feststellen, welche Produkte häufig zusammengekauft werden, und diese Informationen für Marketingzwecke verwenden. Dies wird manchmal als Marktkorbanalyse bezeichnet.
  • Clustering - Ist die Aufgabe, Gruppen und Strukturen in den Daten zu entdecken, die auf die eine oder andere Weise "ähnlich" sind, ohne bekannte Strukturen in den Daten zu verwenden.
  • Einstufung - Ist die Aufgabe, die bekannte Struktur für neue Daten zu verallgemeinern. Beispielsweise könnte ein E-Mail-Programm versuchen, eine E-Mail als "legitim" oder als "Spam" zu klassifizieren.
  • Regression - Versucht, eine Funktion zu finden, die die Daten mit dem geringsten Fehler modelliert, dh zur Schätzung der Beziehungen zwischen Daten oder Datensätzen.
  • Zusammenfassung - Bereitstellung einer kompakteren Darstellung des Datensatzes, einschließlich der Visualisierung und der Erzeugung von Bericht.

Ergebnisvalidierung

Ein Beispiel für Daten, die von erstellt wurden durch Datenbagger Durch einen Bot, der von Statistiker Tyler Vigen betrieben wird und offenbar einen engen Zusammenhang zwischen dem besten Wort zeigt, der einen Schreibbienenwettbewerb gewann, und der Anzahl der Menschen in den Vereinigten Staaten, die von giftigen Spinnen getötet wurden. Die Ähnlichkeit der Trends ist offensichtlich ein Zufall.

Data Mining kann ungewollt missbraucht werden und Ergebnisse erzeugen, die signifikant zu sein scheinen, aber das zukünftige Verhalten nicht vorhersagen und nicht sein kann reproduziert Auf einer neuen Datenprobe, wodurch wenig genutzt wird. Dies wird manchmal durch die Untersuchung von zu vielen Hypothesen und durch die eigentliche Leistung verursacht Statistische Hypothesentests. Eine einfache Version dieses Problems in maschinelles Lernen ist bekannt als ÜberanpassungAber das gleiche Problem kann in verschiedenen Phasen des Prozesses und damit eine Zug-/Testaufteilung auftreten - wenn überhaupt nicht anwendbar - nicht ausreicht, um zu verhindern, dass dies geschieht.[21]

Der letzte Schritt der Erkennung von Wissen aus Daten besteht darin, zu überprüfen, ob die von den Data Mining -Algorithmen erzeugten Muster im breiteren Datensatz auftreten. Nicht alle von den Algorithmen gefundenen Muster sind notwendigerweise gültig. Es ist üblich, dass Data Mining -Algorithmen Muster im Trainingssatz finden, die im allgemeinen Datensatz nicht vorhanden sind. Das nennt man Überanpassung. Um dies zu überwinden, verwendet die Bewertung a Testsatz von Daten, über die der Data Mining -Algorithmus nicht trainiert wurde. Die gelernten Muster werden auf diesen Testsatz angewendet und die resultierende Ausgabe wird mit der gewünschten Ausgabe verglichen. Zum Beispiel würde ein Data Mining-Algorithmus, der versucht, "Spam" von "legitimen" E-Mails zu unterscheiden Trainingsset von Proben-E-Mails. Nach dem Training würden die gelehrten Muster auf den Testsatz von E-Mails angewendet, auf denen es hatte nicht wurde trainiert. Die Genauigkeit der Muster kann dann anhand der Anzahl der E-Mails gemessen werden, die sie korrekt klassifizieren. Es können mehrere statistische Methoden verwendet werden, um den Algorithmus zu bewerten, wie z. ROC -Kurven.

Wenn die gelernten Muster nicht den gewünschten Standards entsprechen, müssen die Schritte vorverarbeitung und Data Mining neu bewertet und geändert werden. Wenn die gelernten Muster den gewünschten Standards entsprechen, besteht der letzte Schritt darin, die gelernten Muster zu interpretieren und sie in Wissen zu verwandeln.

Forschung

Der führende professionelle Körper auf dem Feld ist die Verband für Rechenmaschinen's (ACM) Spezialinteressensgruppe (SIG) zur Erkennung von Wissen und Datenträgern (Data Mining (Sigkdd).[22][23] Seit 1989 veranstaltet diese ACM SIG eine jährliche internationale Konferenz und veröffentlichte ihr Proceedings.[24] Und seit 1999 hat es ein halbjährliches veröffentlicht wissenschaftliche Fachzeitschrift Titel "Sigkdd Explorations".[25]

Zu den Informatikkonferenzen zum Data Mining gehören:

Data Mining -Themen sind auch in vielen vorhanden Datenverwaltung/Datenbankkonferenzen wie die ICDE -Konferenz, Sigmod -Konferenz und Internationale Konferenz über sehr große Datenbasen.

Standards

Es wurden einige Anstrengungen unternommen, um Standards für den Data Mining -Prozess zu definieren, zum Beispiel den Europäischen 1999 Standardprozess für den Branchenstandard für Data Mining (Crisp-DM 1.0) und 2004 Java Data Mining Standard (JDM 1.0). Die Entwicklung dieser Prozesse (CRISP-DM 2.0 und JDM 2.0) war 2006 aktiv, ist jedoch seitdem ins Stocken geraten. JDM 2.0 wurde zurückgezogen, ohne einen endgültigen Entwurf zu erreichen.

Zum Austausch der extrahierten Modelle - insbesondere für die Verwendung in Prädiktive Analytics- Der Schlüsselstandard ist der Vorhersagemodell -Markup -Sprache (PMML), was ist ein Xml-Basierte Sprache, die von der Data Mining Group (DMG) entwickelt und als Austauschformat von vielen Data Mining -Anwendungen unterstützt wird. Wie der Name schon sagt, deckt er nur Vorhersagemodelle ab, eine bestimmte Data Mining -Aufgabe, die für Geschäftsanwendungen von hoher Bedeutung ist. Erweiterungen, die jedoch abdecken sollen (zum Beispiel) Subspace -Clustering wurden unabhängig von der DMG vorgeschlagen.[26]

Bemerkenswerte Verwendungen

Data Mining wird heute überall dort verwendet, wo es heute digitale Daten verfügbar gibt. Bemerkenswert Beispiele für Data Mining Kann in Wirtschaft, Medizin, Wissenschaft und Überwachung gefunden werden.

Datenschutzbedenken und Ethik

Während der Begriff "Data Mining" selbst keine ethischen Auswirkungen haben kann, ist er häufig mit dem Bergbau von Informationen in Bezug auf die Information verbunden Benutzerverhalten (ethisch und sonst).[27]

Die Art und Weise, wie Data Mining verwendet werden kann Privatsphäre, Legalität und Ethik.[28] Insbesondere Data Mining -Regierung oder kommerzielle Datensätze für nationale Sicherheit oder Strafverfolgung Zwecke wie in der Gesamtinformationsbewusstsein Programm oder in BERATEN, hat Privatsphäre Bedenken geäußert.[29][30]

Die Data Mining erfordert die Datenvorbereitung, die Informationen oder Muster aufdeckt Vertraulichkeit und Privatsphäre Verpflichtungen. Ein häufiger Weg dafür ist durch Datenaggregation. Datenaggregation beinhaltet die Kombination von Daten (möglicherweise aus verschiedenen Quellen) in einer Weise, die die Analyse erleichtert (die jedoch auch die Identifizierung von Daten auf individueller Ebene auf individuelle Ebene oder anderweitig ersichtlich machen kann).[31] Dies ist kein Data Mining an sich, aber ein Ergebnis der Vorbereitung von Daten zuvor - und für die Zwecke der Analyse. Die Bedrohung für die Privatsphäre einer Person kommt ins Spiel, wenn die Daten, die nach dem Zusammenstellen des Data Miners oder jedem, der Zugriff auf den neu kompilierten Datensatz hat, zu bewirken, bestimmte Personen identifizieren zu können, insbesondere wenn die Daten ursprünglich anonym waren.[32]

Es wird empfohlen[Nach wem?] sich der folgenden bewusst sein Vor Daten werden gesammelt:[31]

  • Der Zweck der Datenerfassung und alle (bekannten) Data Mining -Projekte;
  • Wie die Daten verwendet werden;
  • Wer kann die Daten abbauen und die Daten und deren Derivate verwenden?
  • Der Status der Sicherheit im Zusammenhang mit den Daten;
  • Wie gesammelte Daten aktualisiert werden können.

Daten können auch so geändert werden werden Anonym, damit Einzelpersonen nicht ohne weiteres identifiziert werden.[31] Aber sogar "anonymisiert"Datensätze können potenziell genügend Informationen enthalten, um die Identifizierung von Personen zu ermöglichen, da Journalisten in der Lage waren, mehrere Personen auf der Grundlage einer Reihe von Suchgeschichten zu finden, die versehentlich von AOL veröffentlicht wurden.[33]

Die unbeabsichtigte Offenbarung von persönlich identifizierbare Informationen Die Führung des Anbieters verstößt gegen faire Informationspraktiken. Diese Indiskretion kann dem angegebenen Individuum finanzielle, emotionale oder körperliche Schäden verursachen. In einem Fall von DatenschutzverletzungDie Gönner von Walgreens reichten 2011 eine Klage gegen das Unternehmen ein, um verschreibungspflichtige Informationen an Data Mining -Unternehmen zu verkaufen, die wiederum die Daten an Pharmaunternehmen zur Verfügung stellten.[34]

Situation in Europa

Europa hat ziemlich starke Datenschutzgesetze, und es werden Anstrengungen unternommen, um die Rechte der Verbraucher weiter zu stärken. Allerdings die USA -E.U. Safe Harbor Prinzipien, entwickelt zwischen 1998 und 2000, setzt derzeit europäische Nutzer effektiv der Ausbeutung von US -Unternehmen für Privatsphäre aus. Als Konsequenz Edward Snowden's Globale Überwachung OffenlegungEs wurde eine erhöhte Diskussion zur Widerrufs dieser Vereinbarung gegeben, da insbesondere die Daten vollständig ausgesetzt sind Nationale Sicherheitsbehördeund Versuche, eine Vereinbarung mit den Vereinigten Staaten zu erzielen, sind gescheitert.[35]

Insbesondere im Vereinigten Königreich gab es Fälle von Unternehmen, die Data Mining verwendeten, um bestimmte Kundengruppen zu zielen, die sie dazu zwingen, ungerechtfertigte Preise zu zahlen. Diese Gruppen sind in der Regel Menschen mit niedrigerem sozioökonomischem Status, die nicht versiert sind, wie sie auf digitalen Marktplätzen ausgenutzt werden können.[36]

Situation in den Vereinigten Staaten

In den Vereinigten Staaten wurden Datenschutzbedenken von der angesprochen US Kongress über den Durchgang von regulatorischen Kontrollen wie dem Gesundheitsversicherung und Rechenschaftspflichtgesetz (HIPAA). Die HIPAA verlangt von Einzelpersonen, ihre "informierte Einwilligung" zu den von ihnen bereitgestellten Informationen und ihren beabsichtigten Gegenwart und zukünftigen Verwendungen zu geben. Nach einem Artikel in Biotech Business Week, "'[i] n Praxis, HIPAA bietet möglicherweise keinen größeren Schutz als die langjährigen Vorschriften in der Forschungsbereich“, sagt der AAHC. Noch wichtiger ist . "[37] Dies unterstreicht die Notwendigkeit einer Datenanonymität in der Datenaggregation und Bergbaupraktiken.

US -amerikanische Datenschutzgesetze für Information wie HIPAA und die Familienbildungsrechte und Datenschutzgesetze (Ferpa) gilt nur für die spezifischen Bereiche, die jedes solchen Gesetz anspricht. Die Verwendung von Data Mining durch die Mehrheit der Unternehmen in den USA wird von keinem Gesetz kontrolliert.

Urheberrechtsgesetz

Situation in Europa

Unter Europäisches Urheberrecht und Datenbankgesetze, der Bergbau von Werken in den Copyright (wie beispielsweise von Webabbau) ohne die Erlaubnis des Urheberrechtsinhabers ist nicht legal. Wenn eine Datenbank reine Daten in Europa ist, kann es sein, dass es kein Urheberrecht gibt - aber die Datenbankrechte können vorhanden sein, sodass Data Mining unterliegt. geistiges Eigentum Eigentümerrechte, die durch die geschützt sind Datenbankrichtlinie. Auf Empfehlung der Hargreaves -Überprüfung führte dies dazu, dass die britische Regierung 2014 ihr Urheberrechtsgesetz änderte, um den Inhaltsabbau als Einschränkung und Ausnahme.[38] Großbritannien war das zweite Land der Welt nach Japan, was 2009 eine Ausnahme für Data Mining einführte. Aufgrund der Einschränkung der Information Society Directive (2001) ermöglicht die britische Ausnahme nur den Inhaltsmining für nichtkommerzielle Zwecke. Das britische Urheberrechtsgesetz erlaubt auch nicht, dass diese Bestimmung durch vertragliche Bedingungen überschrieben wird. Seit 2020 reguliert auch die Schweiz den Data Mining, indem er es unter bestimmten Bedingungen zuzulassen, die von ART festgelegt wurden. 24d des Schweizer Copyright Act. Dieser neue Artikel trat am 1. April 2020 in Kraft.[39]

Das Europäische Kommission Erleichterte Stakeholder -Diskussion über Text und Data Mining im Jahr 2013 unter dem Titel der Lizenzen für Europa.[40] Die Fokussierung auf die Lösung dieses rechtlichen Problems, wie z. uneingeschränkter Zugang Verlage verlassen den Stakeholder -Dialog im Mai 2013.[41]

Situation in den Vereinigten Staaten

US -Urheberrechtund insbesondere seine Bereitstellung für faire Nutzung, hält die Rechtmäßigkeit des Inhaltsabbaus in Amerika und andere Länder in Fair Nutzung wie Israel, Taiwan und Südkorea ein. Da der Inhaltsmining transformativ ist, ist das so, dass es die ursprüngliche Arbeit nicht erzeugt, sondern als rechtmäßig in Anspruch genommen wird. Zum Beispiel als Teil der Google Book Abrechnung Der vorsitzende Richter in dem Fall entschied, dass das Digitalisierungsprojekt von Google von In-Copyright-Büchern rechtmäßig war, teilweise aufgrund der transformativen Verwendungen, die das Digitalisierungsprojekt gezeigt hat-eines ist Text und Data Mining.[42]

Software

Kostenlose Open-Source Data Mining Software und Anwendungen

Die folgenden Bewerbungen sind unter kostenlosen/Open-Source-Lizenzen verfügbar. Der öffentliche Zugriff auf Anwendungsquellcode ist ebenfalls verfügbar.

Proprietäre Data-Mining-Software und Anwendungen

Die folgenden Anträge sind im Rahmen proprietärer Lizenzen verfügbar.

Siehe auch

Methoden
Anwendungsdomänen
Anwendungsbeispiele
verwandte Themen

Weitere Informationen zum Extrahieren von Informationen aus Daten (im Gegensatz zu Daten im Gegensatz zu Analysieren Daten), siehe:

Andere Ressourcen

Verweise

  1. ^ a b c "Data Mining Curriculum". ACM Sigkdd. 2006-04-30. Abgerufen 2014-01-27.
  2. ^ Clifton, Christopher (2010). "Encyclopædia Britannica: Definition des Data Mining". Abgerufen 2010-12-09.
  3. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "Die Elemente des statistischen Lernens: Data Mining, Inferenz und Vorhersage". Archiviert von das Original am 2009-11-10. Abgerufen 2012-08-07.
  4. ^ Han, Jaiwei; Kamber, Micheline; Pei, Jian (2011). Data Mining: Konzepte und Techniken (3. Aufl.). Morgan Kaufmann. ISBN 978-0-12-381479-1.
  5. ^ a b c Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "Vom Data Mining bis zu Wissenserkennung in Datenbanken" (PDF). Abgerufen 17. Dezember 2008.
  6. ^ Han, Jiawei; Kamber, Micheline (2001). Data Mining: Konzepte und Techniken. Morgan Kaufmann. p. 5. ISBN 978-1-55860-489-6. Daher sollte Data Mining angemessener als "Knowledge Mining aus Daten" bezeichnet werden, was leider etwas lang ist
  7. ^ OKAIRP 2005 Herbstkonferenz, Arizona State University Archiviert 2014-02-01 am Wayback -Maschine
  8. ^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. (2011). Data Mining: Tools und Techniken für maschinelles Lernen (3 ed.). Elsevier. ISBN 978-0-12-374856-0.
  9. ^ Bockaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). "Weka erlebt mit einem Java Open-Source-Projekt". Journal of Machine Learning Research. 11: 2533–2541. Der ursprüngliche Titel "Praktisches maschinelles Lernen" wurde geändert ... der Begriff "Data Mining" wurde hauptsächlich aus Marketinggründen hinzugefügt.
  10. ^ Olson, D. L. (2007). Data Mining in Business Services. Servicegeschäft, 1(3), 181–193. doi:10.1007/s11628-006-0014-7
  11. ^ Lovell, Michael C. (1983). "Data Mining". Die Überprüfung von Wirtschaft und Statistik. 65 (1): 1–12. doi:10.2307/1924403. JStor 1924403.
  12. ^ Charemza, Wojciech W.; Deadman, Derek F. (1992). "Data Mining". Neue Richtungen in der ökonometrischen Praxis. Aldershot: Edward Elgar. S. 14–31. ISBN 1-85278-461-x.
  13. ^ Mena, Jesús (2011). Forensik für maschinelles Lernen für Strafverfolgungsbehörden, Sicherheit und Intelligenz. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
  14. ^ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). "Lektion: Data Mining und Wissens Discovery: Eine Einführung". Einführung in den Data Mining. KD Nuggets. Abgerufen 30. August 2012.
  15. ^ Fayyad, Usama (15. Juni 1999). "Erstes Editorial von Chefredakteur". Sigkdd -Erkundungen. 13 (1): 102. doi:10.1145/2207243.2207269. S2CID 13314420. Abgerufen 27. Dezember 2010.
  16. ^ Coenen, Frans (2011-02-07). "Data Mining: Vergangenheit, Gegenwart und Zukunft". Die Knowledge Engineering Review. 26 (1): 25–29. doi:10.1017/s0269888910000378. ISSN 0269-8889. S2CID 6487637.
  17. ^ Kantardzic, Mehmed (2003). Data Mining: Konzepte, Modelle, Methoden und Algorithmen. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.
  18. ^ Gregory Piatetsky-Shapiro (2002) KDNUGGETS -Methodikumfrage, Gregory Piatetsky-Shapiro (2004) KDNUGGETS -Methodikumfrage, Gregory Piatetsky-Shapiro (2007) KDNUGGETS -Methodikumfrage, Gregory Piatetsky-Shapiro (2014) KDNUGGETS -Methodikumfrage
  19. ^ Lukasz Kurgan und Petr Musileek: "Eine Übersicht über die Modelle zur Erkennung von Wissens- und Data -Mining -Prozessen". Die Knowledge Engineering Review. Band 21 Ausgabe 1, März 2006, S. 1–24, Cambridge University Press, New York, doi:10.1017/s0269888906000737
  20. ^ Azevedo, A. und Santos, M. F. KDD, Semma und Crisp-DM: Ein paralleler Überblick Archiviert 2013-01-09 bei der Wayback -Maschine. In Proceedings der IADIS -Europäischen Konferenz zum Data Mining 2008, S. 182–185.
  21. ^ Hawkins, Douglas M (2004). "Das Problem der Überanpassung". Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.
  22. ^ "Microsoft Academic Search: Top -Konferenzen im Data Mining". Microsoft Academic Search.
  23. ^ "Google Scholar: Top Publications - Data Mining & Analysis". Google Scholar.
  24. ^ Verfahren Archiviert 2010-04-30 bei Wayback -Maschine, Internationale Konferenzen zu Wissensentdeckung und Data Mining, ACM, New York.
  25. ^ Sigkdd -Erkundungen, ACM, New York.
  26. ^ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). "Eine Erweiterung des PMML -Standards auf Subspace -Clustering -Modelle". Proceedings des Workshops 2011 zur Vorhersage -Markup -Sprachmodellierung. p. 48. doi:10.1145/2023598.2023605. ISBN 978-1-4503-0837-3. S2CID 14967969.
  27. ^ Seltzer, William (2005). "Das Versprechen und die Fallstricke des Data Mining: Ethische Probleme" (PDF). ASA -Abschnitt über staatliche Statistiken. American Statistical Association.
  28. ^ Pitts, Chip (15. März 2007). "Das Ende des illegalen spionierten Spionierens in Haushalt? Zählen Sie nicht darauf". Washington Zuschauer. Archiviert von das Original Am 2007-11-28.
  29. ^ Taipale, Kim A. (15. Dezember 2003). "Data Mining und Inlandssicherheit: Verbinden der Punkte, um Daten zu verstehen". Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782.
  30. ^ Reservel, John. "Ein Rahmen für das Bergbau von Instant Messaging Services" (PDF). Abgerufen 16. März 2018.
  31. ^ a b c Denken Sie vor dem Graben nach: Datenschutzauswirkungen von Data Mining & Aggregation Archiviert 2008-12-17 bei der Wayback -Maschine, Nascio Research Brief, September 2004
  32. ^ Ohm, Paul. "Erstellen Sie keine Datenbank des Ruins". Harvard Business Review.
  33. ^ AOL -Suchdaten identifizierten Personen, SecurityFocus, August 2006
  34. ^ Kshetri, Nir (2014). "Die Auswirkungen von Big Data auf Privatsphäre, Sicherheit und Verbraucherschutz" (PDF). Telekommunikationsrichtlinie. 38 (11): 1134–1145. doi:10.1016/j.telpol.2014.10.002.
  35. ^ Weiss, Martin A.; Archick, Kristin (19. Mai 2016). "US -E.U. Datenschutz: vom sicheren Hafen bis zum Datenschutzschild" (PDF). Washington, D. C. Congressional Research Service. p. 6. R44257. Abgerufen 9. April 2020. Am 6. Oktober 2015 die Cjeu... veröffentlichte eine Entscheidung, die Safe Harbor (sofort wirksam), wie derzeit umgesetzt, ungültig gemacht.
  36. ^ Parker, George. "Großbritannliche Unternehmen, die sich für die Verwendung von Big Data richten, um Kunden auszunutzen." Abonnieren Sie Read | Financial Times, Financial Times, 30. September 2018, https://www.ft.com/content/5dbd98ca-c491-11e8-bc21-54264d1c4647.
  37. ^ Redakteure der Biotech Business Week (30. Juni 2008); Biomedizin; HIPAA -Datenschutzregel behindert die biomedizinische Forschung, Biotech Business Week, abgerufen am 17. November 2009 von Lexisnexis Academic
  38. ^ Großbritannien haben das Data Mining -Recht nach neuen Urheberrechtsgesetzen in Großbritannien verabreicht. Archiviert 9. Juni 2014 bei der Wayback -Maschine Out-law.com. Abgerufen am 14. November 2014
  39. ^ "Fedlex".
  40. ^ "Lizenzen für Europa - strukturierter Stakeholder Dialogue 2013". Europäische Kommission. Abgerufen 14. November 2014.
  41. ^ "Text und Data Mining: seine Bedeutung und die Notwendigkeit einer Veränderung in Europa". Vereinigung der Europäischen Forschungsbibliotheken. Abgerufen 14. November 2014.
  42. ^ "Richter gewährt ein zusammenfassendes Urteil zugunsten von Google Books - einem fairen Nutzungssieg". Lexology.com. Antonelli Law Ltd. 19. November 2013. Abgerufen 14. November 2014.

Weitere Lektüre

  • Zuba, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Entdeckung von Data Mining: vom Konzept zur Implementierung, Prentice Hall, ISBN0-13-743980-6
  • FRAU. Chen, J. Han, P.S.S. Yu (1996) "Data Mining: Eine Übersicht aus Sicht der Datenbank". Wissens- und Datentechnik, IEEE -Transaktionen am 8 (6), 866–883
  • Feldman, Ronen; Sanger, James (2007); Das Text -Mining -Handbuch, Cambridge University Press, ISBN978-0-521-83657-9
  • Guo, Yike; und Grossman, Robert (Herausgeber) (1999); Hochleistungs -Data Mining: Skalierungsalgorithmen, Anwendungen und Systeme, KLUWER Academic Publishers
  • Han, Jiawei, Micheline Kamber und Jian Pei. Data Mining: Konzepte und Techniken. Morgan Kaufmann, 2006.
  • Hastie, Trevor, Tibshirani, Robert und Friedman, Jerome (2001); Die Elemente des statistischen Lernens: Data Mining, Inferenz und Vorhersage, Springer, ISBN0-387-95284-5
  • Liu, Bing (2007, 2011); Webdatenmining: Erforschung von Hyperlinks, Inhalts- und Nutzungsdaten, Springer, ISBN3-540-37881-2
  • Murphy, Chris (16. Mai 2011). "Ist Data Mining Rede Rede?". Informationswoche: 12.
  • Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbuch für statistische Analyse- und Data -Mining -Anwendungen, Akademische Presse/Elsevier, ISBN978-0-12-374765-5
  • Poncelet, Pascal; Masseglia, Florent; und Teisseire, Maguelonne (Herausgeber) (Oktober 2007); "Data Mining -Muster: Neue Methoden und Anwendungen", Informationswissenschaftsreferenz, ISBN978-1-59904-162-9
  • Tan, Pang-ning; Steinbach, Michael; und Kumar, Vipin (2005); Einführung in den Data Mining, ISBN0-321-32136-7
  • Theodoridis, Sergios; und Koutroumbas, Konstantinos (2009); Mustererkennung, 4. Ausgabe, Akademische Presse, ISBN978-1-59749-272-0
  • Weiss, Sholom M.; und Indurkhya, Nitin (1998); Vorhersagedatenabbau, Morgan Kaufmann
  • Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30. Januar 2011). Data Mining: Tools und Techniken für maschinelles Lernen (3 ed.). Elsevier. ISBN 978-0-12-374856-0. (Siehe auch Kostenlose Weka -Software)
  • Ye, Nong (2003); Das Handbuch des Data Mining, Mahwah, NJ: Lawrence Erlbaum

Externe Links