Fix lda transform prefomance #1154

menshikh-iv · 2017-02-18T09:21:22Z

I founded one terrible performance issue connected with apply LDA model

Typical example

# *_PATH - path to file with model
# tokens - list with tokens

from gensim.corpora import Dictionary
from gensim.models import LdaModel

dct_model = Dictionary.load(DICT_PATH)
lda_model = LdaModel.load(LDA_PATH)

d2b_vector = dct_model.doc2bow(tokens)

print(lda_model[d2b_vector])

This triggers a chain of calls

__getitem__(self, bow, eps=None)

self.get_document_topics(bow, eps, self.minimum_phi_value, self.per_word_topics)

gamma, phis = self.inference([bow], collect_sstats=True)

collect_sstats=True initiates heavy computation for sstats, but sstats (phis) can't used if per_word_topics=False (Proof block)

I replaced True flag to per_word_topics for significant speedup get_document_topics for case per_word_topics=False (this effect is clearly visible if you use LdaModel with ~180 topics and 700k+ dictionary, i.e. huge topic matrix)

tmylk · 2017-02-20T13:51:38Z

Thanks for the fix. The docstrings in __init__ and get_item need to be updated to include the per_word_topics parameter.

tmylk and others added 24 commits November 5, 2015 19:07

Merge branch 'release-0.12.3rc1'

1c63c9a

Merge branch 'release-0.12.3'

280a488

Merge branch 'release-0.12.3'

ddeb002

Update CHANGELOG.txt

f2ac3a9

Update CHANGELOG.txt

cf09e8c

resolve merge conflict in Changelog

b61287a

Merge branch 'release-0.12.4' with piskvorky#596

3ade404

Merge branch 'release-0.13.0'

9e6522e

Merge branch 'release-0.13.0'

87c4e9c

Release version typo fix

9c74b40

Merge branch 'release-0.13.0rc1'

7b30025

Merge branch 'release-0.13.0'

de79c8e

Merge branch 'release-0.13.1'

d4f9cc5

Merge branch 'release-0.13.2'

d8e9c0f

Merge branch 'release-0.13.2'

7c118fc

Merge branch 'release-0.13.3'

432f840

Merge branch 'release-0.13.3'

b42e181

Win and OSX build fix

3067cb0

Merge branch 'release-0.13.4'

e838391

Merge branch 'release-0.13.4.1'

5d47ec4

Merge branch 'release-1.0.0rc1'

a18de8d

Typo in version

67b1a17

Fix merge conflict

df13670

fix collect_sstats flag

23f5525

tmylk merged commit e56fcbc into piskvorky:develop Feb 20, 2017

menshikh-iv deleted the fix-lda-transform-prefomance branch February 19, 2018 04:48

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix lda transform prefomance #1154

Fix lda transform prefomance #1154

menshikh-iv commented Feb 18, 2017

tmylk commented Feb 20, 2017

Fix lda transform prefomance #1154

Fix lda transform prefomance #1154

Conversation

menshikh-iv commented Feb 18, 2017

tmylk commented Feb 20, 2017