Juman++で品詞分解するやつ。もっとも、Google Colaboratoryの場合、あまりに大きいファイルは処理できないらしい。対話コーパスも100万ツイートほどのファイルとなるとそこそこのサイズになる。これを細切れにしてテンポよく処理させる。あ、事前にJuman++の準備はしといて
2020年05月
識別子を付け忘れたコーパスにあとから付与するやつ
ディープラーニングでAIチャットボットを作るにはTwitterなんかで対話コーパスをつくるわけだけども、発言とそのリプに識別子を付けておいたほうが良い。というか、収集した後に気づいた。……ので、後からつけるやつ。奇数行のヘッダにREQ、偶数行のヘッダにRESをつけてるだ