colab-logo-1


MeCab他、形態素解析はそれぞれ一長一短あれど
ひとまずウチではJUMAN++を採用するに至り。

しかし、処理速度が遅い。遅いったら遅い。
Google Colabで走らせて寝て起きて。
気づいたら止まってた、ということもしばしば。

なので途中までの出力をドライブに保存しつつ、
処理済みのコーパスをスルーしようというアレ。

ただ、途中で処理をやめたものはやり直してほしいので
存在するファイルの一個前から再処理という形に。
初回0番目ファイルは普通に処理してもろて、はいヨロシクゥ。


# 品詞分解メイン処理

def juman():
    spritfile_list = glob.glob(output_dir + '/*')
    spritfile_list.sort()
    print('総分割ツイートファイル数:'+str(len(spritfile_list)))

    for i in range(0,len(spritfile_list)) :
        if os.path.exists(juman_dir +'/juman-' + str(i) + '.csv') and i != 0:
           print('処理済みなのでスルー:juman-'+str(i)+'.csv')
           i=i-1
        else :
             reedfile = spritfile_list[i]
             cmd = 'cat "' + spritfile_list[i] + '" | /usr/local/bin/jumanpp > "' + 
       juman_dir +'/juman-' + str(i) + '.csv"'
             os.system(cmd)
             print('出力完了:juman-'+str(i)+'.csv')