日々気まぐれログ

同人サークル「日々気まぐれ屋」のブログです。やったりやらなかったり。  

2020年05月

Juman++で品詞分解するやつ。もっとも、Google Colaboratoryの場合、あまりに大きいファイルは処理できないらしい。対話コーパスも100万ツイートほどのファイルとなるとそこそこのサイズになる。これを細切れにしてテンポよく処理させる。あ、事前にJuman++の準備はしといて
『Twitterで集めた対話コーパスを分割して品詞分解するやつ』の画像

ディープラーニングでAIチャットボットを作るにはTwitterなんかで対話コーパスをつくるわけだけども、発言とそのリプに識別子を付けておいたほうが良い。というか、収集した後に気づいた。……ので、後からつけるやつ。奇数行のヘッダにREQ、偶数行のヘッダにRESをつけてるだ
『識別子を付け忘れたコーパスにあとから付与するやつ』の画像

↑このページのトップヘ