utils - 多种工具函数

Reading time ~1 minute

该模块包含了多种工具函数。


class gensim.utils.ClippedCorpus(corpus, max_docs=None)

基类: gensim.utils.SaveLoad

返回一个语料库,输入迭代语料的"head"。

在max_docs之后的任何文档都会被忽略。返回语料的有限长度限制:<= max_docs。设置max_docs=None ,则为无限制,将有效包装整个输入语料。

classmethod load(fname, mmap=None)

加载之前保存的文件对象。

同上。

save(fname, separately=None, sep_limit=10485760, ignore=frozenset([]))

保存文件对象。

同上。

class gensim.utils.FakeDict(num_terms)

基类: object

对于指定范围的integer <0的num_terms,该类对象和字典有些类似,用于映射 integer->str(integer),

这意味着当num_terms够大时,你可以避免分配真正的字典,避免内存浪费。

get(val, default=None)


iteritems()


keys()

override dict.keys()函数,它用来决定一个语料的最大内部id=词汇表。

Hack: 为了避免materializing整个range(0, self.num_terms),这将返回最高的id = [self.num_terms - 1]。

class gensim.utils.InputQueue(q, corpus, chunksize, maxsize, as_numpy)

Base: multiprocessing.process.Process

authkey


daemon

返回哪个daemon进程 ------------------------------------------------------------

exitcode

返回进程退出码,如果没有停下来,则返回None

ident

返回进程的identifier(PID), 如果没有start,返回None

is_alive()

返回alive的进程

join(timeout=None)

直到子进程终结

name


pid

返回进程PID,若没有start,则返回None

run()


start()

启动子进程

terminate()

终止进程,发送SIGTERM信号 或者 使用TerminateProcess()

class gensim.utils.NoCM

Base: object

acquire()


release()


class gensim.utils.RepeatCorpus(corpus, reps)

Base:  gensim.utils.SaveLoad

在教程中使用过的分布式计算,其它地方不可用。