top of page
M.R
ソフトウェア開発などについての情報を綴ります
検索
2020年12月31日
RandomForestClassifierの中を見てみる
概要 前回sklearnのDecisionTreeClassifierのソースを見てみました。しかし現実にはDecisionTree単体で用いられることはなく、それらを集めたensembleとして使われることが一般的です。そこで、そんなensembleのうちで最も単純なRa...
2020年12月31日
DecisionTreeClassifierの中を見てみる
概要 機械学習をするためのメソッドは数多くありますが、kaggleなどで人気が高いのはXGBMやLightGBMなどの決定木を利用するものです。今回はそんな決定木が学習をするアルゴリズムを調べてみました。 詳細の前に 決定木とはなんぞや、についてはこの記事などを読んでみてく...
2020年10月15日
[python] k-meansクラスタリングをするときはデータの規格化、標準化をする
概要 とある機械学習の問題に取り組んでいるときに、データをk-meansクラスタリングしてみた。ところが、どうもある一つのカラムの値に依存しすぎているように見えた。こうならないためには、事前にデータの大きさを揃えておかないといけない。 k-meansクラスタリングとは...
2020年10月13日
[python] AttributeError: 'Series' object has no attribute 'find'
状況 pandasのDataFrameに格納したデータをプロットしようとしたら上記エラーが発生。 原因 データの型がobjectになっていた。データの内容は数値だが、csvファイルへの記入の仕方のせいか、DataFrameに読み込んだ時点でobject型になっていた。最初に...
2020年9月3日
[python]存在するフォルダなのにos.path.isdir()がFalse
現象 os.listdir()であるディレクトリ直下のファイル、フォルダ一覧を取得し、その中のフォルダに対して操作をしたい。ところがlistdirで取得した配列の要素をos.path.isdir()メソッドの引数に取ると何故かFalseになる(もちろんそのフォルダはちゃんと...
2020年9月3日
[python]文字列が数字(小数含む)かどうか判定する
やりたいこと 与えられた文字列が数字かどうか判定したい。 問題点 pythonには文字列が数字かどうか判定するisnumeric()というメソッドがあるが、小数の場合は"."が文字と判定されてしまう。 "1".isnumeric() # True ...
2020年8月11日
[python]機械学習の回帰問題でMSE以外でモデルを評価する方法
はじめに 機械学習で回帰問題に取り組む際、モデルの評価には一般にmse(平均二乗誤差)が用いられます。しかし、実際にやっているとmseでは分からない場合もあるんですよね。そこで、今回はmse以外で回帰モデルを評価する方法を考えたので紹介しようと思います。 mseの弱点...
2020年8月11日
[python]データの可視化と相関関係の把握を同時に行う
はじめに データ分析の際にはグラフを用いてデータを可視化すると思います。そのとき、2変数の相関を表す統計量も同時に表示できたら便利ですよね。そこで、変数の内容(カテゴリか数値か)に応じて適切なグラフに適切な統計量を表示できるようにしました。 これまでのおさらい...
2020年8月10日
[python]カテゴリ変数についても相関を求める方法
はじめに データ分析の際には与えられたデータにおいて変数間の相関関係を調べると思います。数値同士の相関は相関係数を調べればよいですが、一方または両方がカテゴリの場合はどうしたらいいのかな?と思って調べたのでまとめます。 数値 vs 数値...
2020年8月10日
[python]データをどうやって可視化するか
はじめに kaggleのcompetitionなど、機械学習を行う際にはまず最初にやるのはデータの可視化ではないでしょうか。そしてデータの可視化にはseabornを使うことが多いかと思います。でもグラフにも色々種類があってどれを使うか迷ってしまうことってありませんか?(僕は...
2020年8月10日
Seabornでhueを引数に持たないメソッドでも色分けをする方法
はじめに データを綺麗なグラフで可視化できるライブラリseaborn。なかでもいくつかのメソッドではhueという引数にカテゴリを指定すると、そのカテゴリごとに色分けをしてグラフを描いてくれます。ところが、一部のメソッドはこのhueを引数にとらないものもあります。そんな場合で...
2020年8月10日
Pandasでデータ全体の概要を把握するメソッド
はじめに データ分析を行っていると、データ全体がどうなっているのかな?と確認したい場合がありますよね。そこで、pandasでデータ全体の概要を見る方法について書いてみようと思います。初めに既存のメソッドをまとめ、その後自作したメソッドを紹介しようと思います。...
2020年8月10日
python + sqlite3で"OperationalError: no such column: "
現象 pythonでsqlite3を使ってデータベースにデータを追加しようとしたら"OperationalError: no such column: None"が出た。 以下のコードで再現する。examplesテーブルにinteger型のカラムvalueがあるとする。va...
bottom of page