「正しい統計データ」を信じてはいけない理由

f:id:tak_jp:20180715135701j:plain

不動産業界の出す統計データやグラフは「いい加減」なものが多いです。統計を学んだりデータ分析の体系的な知識をもっていたりといった人材がいないこともありますが、「そもそも信頼できるデータが業界に存在しない」ことも大きいでしょう*1

手元に不動産のポスティングチラシがあるので、参考にみてみます。

グラフでは成約件数が順調に伸びていること、近年の価格上昇率が高いことがわかります。業者も(伝わりにくいのですが)このあたりを訴求したいようです。

まず「抽出条件が適切に設定されているか」です。

ここで注意すべきは「成約時に築20年以内」を抽出条件にしていることです。都心3区はバブル期にマンション供給がありませんでした。1985年から1995年までの10年、千代田区で供給された分譲マンションは(検索した限り)ゼロです。港区や中央区も数件程度で、無視してもよいレベルです。

グラフの集計は2005年からになっています。この「バブル期は供給が実質ゼロ」を考慮すると2015年まで集計対象が毎年1年分ずつ増えていくだけのことです。近年の大規模物件の大量供給の感覚で「築20年以内」をとらえると、見方を誤ってしまいます。

次に「そもそも元のデータは正しいのか」です。

グラフのなかでは特に成約件数が鵜呑みにしないほうがよい値です。成約件数は「成約後に、不動産屋がレインズというシステムにその旨入力した」件数です。そもそも売主はもちろん一般媒介では入力しませんし、専任専属などでも直前に一般媒介に契約を切り替えて入力を避けることが「当たり前」でした。

さすがにこの「当たり前」はマズいよねと、レインズへの成約登録の割合は少しずつ増えているようです。そうなると今度は「現実の成約件数は減っているのに、一部の大手業者がレインズへの登録に一所懸命になった」ことで、ゆがんだ数値がひとり歩きしてしまいます。

そして「ゴミデータを取り除いているか」です。

ウソあるいは有意ではないデータも除外する必要があります。特定の「外れ値」を除外するために、統計の基礎としては上位と下位の数%は計算に含めないことが多いわけですが、このグラフはそのまま使っています。

たとえば「中央区の最大坪単価1020万円」は明らかに異常値です。調べると、ある特定の業者が販売する特定の収益不動産がごそっとひっかかってきます。こういった物件はふつうはレインズに成約事例を登録することはなく、この特定の業者も該当物件以外では登録していません。なぜか、特定の収益不動産だけが登録されていて、その坪単価が異常値なのです。

最低坪単価も「外れ値」です。借地権にオーナーチェンジが重なると極端に低い坪単価になります。所有権と引き渡し前提の相場からみたら明らかに異常値になりますので、除外すべきです。

「こまけーこたーいいんだよ!」でもありますが、ともかくグラフは「目的をもって」大量生産されています。見る側にもグラフを疑えるだけのスキルは必要だと思いますが、どんなもんでしょう。

*1:データやグラフを使ったほうが「だましやすい」ために積極的に使われることも、まあ、ありますね。どの業界でも同じだと思いますが。