土屋俊介– Author –
PR TIMESインターン / ML & Stats
-
日本語機械学習開発環境の作成
土屋俊介PR TIMES開発本部インターンの土屋です。私は現在データ分析インターンとしてプレスリリースデータをはじめとする社内のデータ解析を行なっています。 今回は、機械学習関連の開発環境を構築したいと思います。後述しますが、日本語の機械学習の開発環境には複数のソフトウェアをセットアップする必要があります。これらの設定をDockerやShell Scriptで実行することにより、セットアップのスピードを向上させます。また、日本語の前処理である正規化は主に正規表現を用いますが、中には文字コードを指定する必要が... -
新旧字体の表記ゆれを統一するために互換表を作成した話
土屋俊介プレスリリースや各メディアの転載記事に旧字体と新字体が混じっていて解析のノイズになっていることが判明しため、新旧字体を統一するcsvファイルを作成しました。
1