
ディープラーニングでAIチャットボットを作るには
Twitterなんかで対話コーパスをつくるわけだけども、
発言とそのリプに識別子を付けておいたほうが良い。
というか、収集した後に気づいた。
……ので、後からつけるやつ。
奇数行のヘッダにREQ、偶数行のヘッダにRESをつけてるだけなので
デリミタとかはうまくやってクレメンス。以下宜しく。
#coding:utf-8#識別子を付け忘れたコーパスファイルにあとから付与するやつimport pandas as pdimport resourcefile_name = "未処理ファイルのパス"outputfile_name = "処理後ファイルのパス"# 元ファイルdf = pd.read_csv(sourcefile_name, encoding="utf_8")df.insert(0, 'Head', 'value')df['Head'] = "REQ:"df.loc[0::2, 'Head'] = 'RES:'# 中間ファイルdf.to_csv(outputfile_name)with open(outputfile_name, encoding="utf_8") as f:data_lines = f.read()data_lines = data_lines.replace(",Head,", "REQ:").replace(":,", ":")text = re.sub("[0-9]+,","", data_lines)with open(file_name, mode="w", encoding="utf_8") as f:f.write(text)