Gensim
![]() | |
Originalautor (en) | Radim řehůřek |
---|---|
Entwickler (en) | Rare Technologies Ltd. |
Erstveröffentlichung | 2009 |
Stabile Version | 4.1.2[1] / 18. September 2021 |
Repository | Github |
Geschrieben in | Python |
Betriebssystem | Linux, Fenster, Mac OS |
Typ | Informationsrückgewinnung |
Lizenz | LGPL |
Webseite | Radimrehurek |
Gensim ist ein Open Source Bibliothek für unbeaufsichtigtes Themenmodellierung, Dokumentindexierung, Abruf durch Ähnlichkeit und andere Verarbeitung natürlicher Sprache Funktionen mit modernen statistischen maschinelles Lernen.
Gensim wird in implementiert Python und Cython für Leistung. Gensim ist so konzipiert, dass große Textsammlungen mithilfe von Datenstreaming und inkrementellen Online-Algorithmen verarbeitet werden. Dies unterscheidet sie von den meisten anderen Softwarepaketen für maschinelles Lernen, die nur auf die Verarbeitung von Memorien abzielen.
Haupteigenschaften
Gensim umfasst gestreamte parallelisierte Implementierungen von FastText,[2] Word2Vec und Doc2VEC -Algorithmen,[3] ebenso gut wie Latente semantische Analyse (LSA, LSI, SVD), Nicht negative Matrixfaktorisierung (NMF), Latent Dirichlet Allocation (LDA), tf-idf und zufällige Projektionen.[4]
Einige der neuartigen Online -Algorithmen in Gensim wurden auch in der PhD -Dissertation 2011 veröffentlicht Skalierbarkeit der semantischen Analyse in der Verarbeitung natürlicher Sprache von Radim řehůřek, der Schöpfer von Gensim.[5]
Verwendung von Gensim
Gensim wurde ab 2018 in über 1400 kommerziellen und akademischen Bewerbungen verwendet und zitiert.[6] In einer Vielzahl von Disziplinen von Medizin zur Analyse der Versicherungsansprüche zur Patentsuche.[7] Die Software wurde in mehreren neuen Artikeln, Podcasts und Interviews behandelt.[8][9][10]
Kostenlose und kommerzielle Unterstützung
Der Open Source -Code wird entwickelt und gehostet GitHub[11] und ein öffentliches Support -Forum wird aufrechterhalten Google -Gruppen[12] und Gitter.[13]
Gensim wird von dem Unternehmen Selten-technologies.com kommerziell unterstützt, das auch Studierende Mentoring und akademische Theseprojekte für Gensim über ihr Student Incubator-Programm anbietet.[14]
Verweise
- ^ "Release 4.1.2". 18. September 2021. Abgerufen 27. September 2021.
- ^ Skalierbar *2VEC -Training
- ^ Tiefes Lernen mit Word2Vec und Gensim
- ^ Radim řehůřek und Petr Sojka (2010). Software -Framework für Themenmodellierung mit großen Korpora. Proc. LREC -Workshop zu neuen Herausforderungen für NLP -Frameworks
- ^ Řehůřek, Radim (2011). "Skalierbarkeit der semantischen Analyse in der Verarbeitung natürlicher Sprache" (PDF). Abgerufen 27. Januar 2015.
meine Open-Source Gensim Softwarepaket, das diese These begleitet
- ^ Gensim akademische Zitate
- ^ Kommerzielle Anwender von Gensim
- ^ Podcast .__ init__ Episode Nr. 71 auf Gensim
- ^ Interview mit Radim řehůřek, Schöpfer von Gensim
- ^ "Delikte -Interview Radim řehůřek Gensim #python". 8. Dezember 2015.
- ^ Gensim -Quellcode auf GitHub
- ^ Gensim Mailingliste auf Google Groups
- ^ Gensim -Chatraum auf dem Gitter
- ^ Gensim Open Source Incubator
Externe Links