colab-logo-1

ディープラーニングでAIチャットボットを作るには
Twitterなんかで対話コーパスをつくるわけだけども、
発言とそのリプに識別子を付けておいたほうが良い。
というか、収集した後に気づいた。
……ので、後からつけるやつ。

奇数行のヘッダにREQ、偶数行のヘッダにRESをつけてるだけなので
デリミタとかはうまくやってクレメンス。以下宜しく。




#coding:utf-8
#識別子を付け忘れたコーパスファイルにあとから付与するやつ

  import pandas as pd
  import re
  sourcefile_name = "未処理ファイルのパス"
  outputfile_name = "処理後ファイルのパス"

 # 元ファイル
  df = pd.read_csv(sourcefile_name, encoding="utf_8")
  df.insert(0, 'Head', 'value')
  df['Head'] = "REQ:"
  df.loc[0::2, 'Head'] = 'RES:'
  # 中間ファイル
  df.to_csv(outputfile_name)
with open(outputfile_name, encoding="utf_8") as f:
    data_lines = f.read()
    data_lines = data_lines.replace(",Head,", "REQ:").replace(":,", ":")
    text = re.sub("[0-9]+,","", data_lines)
with open(file_name, mode="w", encoding="utf_8") as f:
    f.write(text)