Gensim

Gensim
Gensim logo.png
Originalautor (en) Radim řehůřek
Entwickler (en) Rare Technologies Ltd.
Erstveröffentlichung 2009
Stabile Version
4.1.2[1] / 18. September 2021; vor 10 Monaten
Repository Github.com/Seltene-Technologien/Gensim
Geschrieben in Python
Betriebssystem Linux, Fenster, Mac OS
Typ Informationsrückgewinnung
Lizenz LGPL
Webseite Radimrehurek.com/Gensim/

Gensim ist ein Open Source Bibliothek für unbeaufsichtigtes Themenmodellierung, Dokumentindexierung, Abruf durch Ähnlichkeit und andere Verarbeitung natürlicher Sprache Funktionen mit modernen statistischen maschinelles Lernen.

Gensim wird in implementiert Python und Cython für Leistung. Gensim ist so konzipiert, dass große Textsammlungen mithilfe von Datenstreaming und inkrementellen Online-Algorithmen verarbeitet werden. Dies unterscheidet sie von den meisten anderen Softwarepaketen für maschinelles Lernen, die nur auf die Verarbeitung von Memorien abzielen.

Haupteigenschaften

Gensim umfasst gestreamte parallelisierte Implementierungen von FastText,[2] Word2Vec und Doc2VEC -Algorithmen,[3] ebenso gut wie Latente semantische Analyse (LSA, LSI, SVD), Nicht negative Matrixfaktorisierung (NMF), Latent Dirichlet Allocation (LDA), tf-idf und zufällige Projektionen.[4]

Einige der neuartigen Online -Algorithmen in Gensim wurden auch in der PhD -Dissertation 2011 veröffentlicht Skalierbarkeit der semantischen Analyse in der Verarbeitung natürlicher Sprache von Radim řehůřek, der Schöpfer von Gensim.[5]

Verwendung von Gensim

Gensim wurde ab 2018 in über 1400 kommerziellen und akademischen Bewerbungen verwendet und zitiert.[6] In einer Vielzahl von Disziplinen von Medizin zur Analyse der Versicherungsansprüche zur Patentsuche.[7] Die Software wurde in mehreren neuen Artikeln, Podcasts und Interviews behandelt.[8][9][10]

Kostenlose und kommerzielle Unterstützung

Der Open Source -Code wird entwickelt und gehostet GitHub[11] und ein öffentliches Support -Forum wird aufrechterhalten Google -Gruppen[12] und Gitter.[13]

Gensim wird von dem Unternehmen Selten-technologies.com kommerziell unterstützt, das auch Studierende Mentoring und akademische Theseprojekte für Gensim über ihr Student Incubator-Programm anbietet.[14]

Verweise

  1. ^ "Release 4.1.2". 18. September 2021. Abgerufen 27. September 2021.
  2. ^ Skalierbar *2VEC -Training
  3. ^ Tiefes Lernen mit Word2Vec und Gensim
  4. ^ Radim řehůřek und Petr Sojka (2010). Software -Framework für Themenmodellierung mit großen Korpora. Proc. LREC -Workshop zu neuen Herausforderungen für NLP -Frameworks
  5. ^ Řehůřek, Radim (2011). "Skalierbarkeit der semantischen Analyse in der Verarbeitung natürlicher Sprache" (PDF). Abgerufen 27. Januar 2015. meine Open-Source Gensim Softwarepaket, das diese These begleitet
  6. ^ Gensim akademische Zitate
  7. ^ Kommerzielle Anwender von Gensim
  8. ^ Podcast .__ init__ Episode Nr. 71 auf Gensim
  9. ^ Interview mit Radim řehůřek, Schöpfer von Gensim
  10. ^ "Delikte -Interview Radim řehůřek Gensim #python". 8. Dezember 2015.
  11. ^ Gensim -Quellcode auf GitHub
  12. ^ Gensim Mailingliste auf Google Groups
  13. ^ Gensim -Chatraum auf dem Gitter
  14. ^ Gensim Open Source Incubator

Externe Links