日々気まぐれログ

やったりやらなかったり。  

ツギクルバナー 小説『夢次元機アルマエレンシア』連載中です。
 よろしくお願いします。

夢次元機アルマエレンシア




ライター違いなれど、小説の投稿などを始めてみました。
例によってロボットモノです。
しばらくの間、お付き合いいただければ幸いです。
よろしくお願い致します。

里奈加ひびき

特定のTwitter垢から語彙や言い回しを転移学習するAI的なアレ

colab-logo-1GPT-2の汎用日本語モデルが
いつの間にか公開されていたので、
これにサクっとファインチューニングを施すやつ。

いわゆるフェイク何某にもなりかねないので
一応注意の上、参考程度にしてください。



つまるところ……ある程度、最初から日本語を学習させたBOTに
途中から特定の人物のTwitterから抽出した特徴を転移学習させて
手っ取り早くその人っぽいBOTを作ろう!
というやつ。

今回は、これを最小ステップ(TwitterのIDを指定するくらいの作業)で実現したい。




えぇ、そらもう。

流行りに乗っかりますよ。


#必要そうなものを入れる

!git clone https://github.com/tanreinama/gpt2-japanese
!git clone https://github.com/tanreinama/Japanese-BPEEncoder.git
%cd gpt2-japanese
!pip uninstall tensorflow -y
!pip install -r requirements.txt
!wget https://www.nama.ne.jp/models/gpt2ja-small.tar.bz2
!tar xvfj gpt2ja-small.tar.bz2
!mkdir srcdataset




まずは環境構築。
GPT-2日本語モデルを環境にダウンロードして展開。
ついでにファインチューニング用の
データセット作成用エンコーダとそれ用のディレクトリを作ります。


 続きを読む

【pyてょn】指定したTwitterアカウントのフォロワーを取得するやつ


colab-logo-1
指定したアカウントのフォロワーを取得するやつです。
スクリーンネームと名前をCSVでリスト出力します。
一応、上限と指定フォロワー数毎にファイルを分割する
要るようで要らんような機能があります。
アクセストークンやらは各自ご用意の上でどうぞ。





以下、宜しく。続きを読む
ぼちぼちゲームライターやってます。なお、このブログやTwitterでの発言は私個人のものであり、各掲載媒体様は無関係であります。予めご承知おきくださいませ。
うちの同人誌
amazon.co.jp