Interview

名刺データに秘められた可能性を最大化する。Sansanの社内組織「DSOC」の軌跡と未来 – Sansan株式会社 常樂 諭

text by : 編集部
photo   : 編集部,Sansan株式会社

急成長中の名刺管理サービス「Sansan」と名刺アプリ「Eight
名刺データが迅速かつ高精度にデータ化されるこれらのサービスにおいて、基盤を支えるのがDSOC(Data Strategy & Operation Center)と呼ばれる社内チームの存在だ。
創業当時の非効率な人力データ化時代を乗り越え、利用者の満足度と売上成長に寄与する仕組み化に至るまでの試行錯誤、名刺データから拡がる可能性について責任者の常樂さんにお聞きしました。


■人力での効率的なデータ化を目指し、GEESという独自の仕組みを導入


-DSOCの取り組みを昨年末ウェブサイトに公開していましたが、あのGEESというフローは以前から社内にあったフローだったのでしょうか?

創業当時からあったわけではありません。
最初は名刺のデータ化を人力のみで行なっていましたが、かなり大変な作業でした。当社では名刺1枚につき、2名のオペレーターがそれぞれ約2分の入力作業時間を掛けており、これがサービス成長における悩みの種となっていました。

テキスト情報のデータ化といえばOCR(Optical Character Recognition=光学文字認識)を使うケースもありますが、実はOCRだけでは名刺情報の認識精度があまり高くなく実用的ではないのです。
名刺ごとにレイアウトが異なり、フォントの種類やサイズもバラバラ。当然書式も統一されておらず部署名なのか役職名なのかの判別も難しい。

人力だと時間が掛かる、OCRも活用できない。
品質高くデータの自動化を実現しなければ、と4年程前に社内に研究開発チームを作り、これがDSOCの前身となりました。

 

-最初はどういったアプローチで進めたのでしょうか?

まずは人力での効率よいデータ化を目指し、GEESという仕組みを開発しました。
コンセプトは「マイクロタスク×マルチソーシング」。
如何にフローを細分化し、誰でも出来るタスクとするか。

gees
GEESの名称はGlobal、Elastic、Effecient、Scalableの頭文字が由来となっている。

 

まず名刺のデータ化を約20工程に分解しました。
以前は作業してもらう方に詳細な名刺のルールを教えていましたが、そのやり方では本格的な作業に入るまで2か月も掛かり、いつまで経ってもスケールしないのでそれを不要にしました。

目の前のテキストを読み、その部分だけ入力する。
分解したことで1工程当たりの作業はシンプルになり、今後自動化も見据えられる。
入力ミスも想定し、自動化が難しい部分は人力でカバーという流れを作りました。

about_pic02

-GEESの仕組みが社内で確立したことによって、何が一番変わりましたか?

一番は、クラウドソーシング活用が可能になった点です。
作業自体がシンプルですから、委託先の社外の方でもすぐにデータ入力が可能。社内教育に掛かっていたコストや採用面のコストにかなり好影響がありました。

また、セキュリティ面での利点もありました。
作業してもらうという事は、Sansanがお預かりしたデータを委託先にお渡しするという事です。もちろんセキュリティを十分担保しなければならないので、作業を細分化しデータの全体像を見せず、また、入力作業をしている作業者は名刺かどうかもわからないようにしています。あわせて社内の人間がシステムをチェックしており、セキュリティ、精度共に担保する事で、データ化の業務を安心してアウトソーシングできるようになりました。

 


■データ化の精度・スピード改善が、利用者の満足度と売上にも直結


-1枚の名刺に2分掛かっていたデータが効率化されれば、利用するユーザーにとっても好影響がありそうですが。

それはありましたね。
利用者からすれば取り込んだデータが反映されるスピードが劇的に速くなりましたから、純粋にサービス自体の体験性や満足度向上に繋がったと思います。

また、法人営業にもいい影響がありました。
以前はデータ化するスピードと作業のリソースが追いつかず、利用企業を開拓したくても法人営業部門に待ってくれとブレーキを掛けざるを得ませんでした。

GEESの仕組み化が確立したことで、営業のチームはデータ化のスピードを気にせず法人顧客を開拓できるようになり、結果的に利用者数・売上共にそれまでの伸び方とは違う次元に突入できました。

 

-データ化の課題解決が、そのまま全社的な数字に直結、というのは自社のデータに関する課題を抱えた企業から見れば理想的な状況ですね。

良かった点は、前提としてSansanというプロダクトがあり事業を伸ばすという経営課題があったことです。
データの利活用を進める際、当然テーマやビジネス上のゴールが必要となります。そこが抽象的なまま闇雲に試行錯誤してもうまくいかないと思います。

僕らの場合、目の前にあったデータ化の課題が利用者・売上の伸び悩みに直結する状態でしたし、代表の寺田を含め「Sansanという会社は何を目指しているのか」という点で試行錯誤できたのが良かった。

このまま人力でデータ化するやり方でも徐々に伸ばすことはできる。しかしその先に大きな飛躍は無い。ならば新しい取り組みをしなければいけない、その結果売上や利用者数で次のフェーズへ移行できる状況を作り出したと思います。

sansan_graph
名刺データ化のフローが確立したことで売上の成長率にも貢献。テレビCMやメディア展開も可能となり、今年7月には導入企業数6,000社を突破。現在は月間1,500万枚のデータ化を行っている。

 


■一流のエンジニアはデータの「量」では無く、「面白さ」と「可能性」にモチベーションを感じる


―DSOCのウェブサイトには、Kaggle Grandmasterも2名在籍と書いてありました。そういった優秀なエンジニアにとってのDSOCの面白味はどのあたりなのでしょうか?

まず言えるのは「Sansanが保有するデータの質や量とユニークさ」です。
Kaggle Grandmasterや優れた分析のスキルを持つ方にとっては、面白いデータに触れられるか、活用したらどんな面白い分析が出来そうか、そのミッションによって自分の面白さがどれだけ引き出されるか?といった点を重要に捉える傾向にあります。

正直、純粋なデータ「量」でいえば当社より大きなデータを扱う会社はいくらでもいます。
但しデータ量が多くても、他社も保有しているようなデータでオリジナリティがなかったり、そもそもデータの精度が低く、解析に値しなかったりというケースは多いです。

Sansanの場合、名刺を起点に「ビジネス上の人のつながり」にフォーカスした正確な情報を数億枚分、保有しています。
この領域で、ここまでの正確性と網羅性を持っている企業は世界見渡しても類例がない。

人のつながり、という重要で面白いデータを、自分の技術を駆使したらどんな発見があるんだろう?
そういったモチベーションで入社するケースが多いですね。
また、研究開発した実績をプロダクトとして世の中に提供する場があり、その距離が近いというのもあります。

DSOCでの情報公開は、凄く採用に繋がりました。
かなりコアな技術・手法ですから、社外には意図的に隠す方針だった時期もあります。
しかし情報をオープンにしたことでSansanの活動を認知してもらい、結果的に良いエンジニアの採用に繋がる実感を得ましたので、今後はしばらくオープンにしていくつもりです。

 

―多様なデータの解析や可能性を導き出す研究は、海外でもTopological Data Analysis(位相的データ解析)など、盛り上がりつつある分野です。今後は海外から優秀な人材採用も考えていますか?

はい、今後海外の人材を強化しなければ次の飛躍が難しいとすら考えています。
GEESの導入で一段階伸ばした収益を、更にもう一段階次のフェーズに持っていくためにも海外は欠かせません。

DSOCの公開後、採用以外でも大学からデータの可能性における共同研究の打診などがありました。
それを受け現在、「Sansan University」構想というものを掲げています。
Sansanのミッションや将来目指すものを軸とし、一緒に取り組める大学や研究機関の先生方と共同研究開発を進めるという構想です。

例えば今年の5月には、情報・システム研究機構 国立情報学研究所(NII)に、当社で作成した架空の「サンプル名刺データ」を提供しました。研究用のデータセットとして、研究の加速に役立ててほしいというのが当社の思いです。社外との連携によって多様なデータを結合し、面白い情報を作り出せるような環境を整えたいと考えていますので、この部分においても海外の研究者も含めて大学方々と連携することを視野に入れたいですね。

sansan_05

 


■「可能性に満ちた問い」「それを解く圧倒的な力」2つを融合する総合力がDSOCの強さ


―逆にDSOCからの情報発信で、勘違いされるケースもあると思うのですが。

当社が採用したい人と、組織柄目立ってしまう部分とのギャップはあるかもしれません。
研究開発チームと言う名称ですし、Kaggle Grandmasterが在籍という点も目立ちやすいので、結果的にデータサイエンティスト職のような方から多くの応募をいただきます。

ただ、DSOC は純粋なデータ解析集団とは少し違います。
Kaggle Grandmasterはバリバリのエンジニアですから、何かの課題がある時それを解決する力はとてつもなく強力です。
しかし「データの中から何が価値か?」という【問い・仮説】をビジネス的に見つけ出す力を持つ人も必要なんです。DSOCにはその部分を担う、社会科学や労働経済学の専門スキルを持った方も在籍しています。

この問いを見つけ出す部分と、解にたどり着く力の融合がDSOCの特色であり理想像。
機械学習・データサイエンスのテクノロジと社会科学・労働経済学が合わさった総合力。
しかし、現時点ではこの社会科学や労働経済学のスキルを持った方にDSOCの存在があまり届いていないという課題があります。

 

―社会科学・労働経済学の視点が入ることで、Sansanのデータからどのような気づき・発見を導き出すのでしょうか。

他のメンバーでは出ないような発見があります。
例えば、我々Sansanの社内にも多くの社員が在籍しいくつもの部署に分かれています。
そこに従来の肩書にある「所属部署」とは違う「属性」で社員の強みを分類します。

すると、人事部の社員が「採用」という属性を持っている、これはまあ普通ですが、実は営業と経理の社員同士がお互い共通の属性を強みを持っている、というケースもあります。
これによって、スキルや経験ではない別の可能性がその組織や社員個人に見えてきます。これまでとは異なる組織開発の起点になると考えています。

この「属性」という視点は、やはり別の視点・思考によって置かれる「問い」です。
そしてこの興味深そうな問いに対し、同じ部署にいるKaggle Grandmasterが全力で解きにかかる。
異なるスキルを持つメンバーが同じDSOCという部署にいることで、ただの仮説が「解けたら凄そうな可能性」になります。

DSOCは、ただのデータサイエンティスト部隊では無く、裏側には30~40万人のデータ化を担うオペレーターがいて、新しい角度から問いを創る社会科学・労働経済学の専門家もいる。
複合的なチームだからこそ、新しい機械学習の題材を作る際まずはオペレーターに作業依頼し、その結果を用いて教師データにするというフローも創れる。
この総合力がDSOCの魅力だと思います。

 


Sansan株式会社
常樂 諭 取締役 CISO 兼 Data Strategy & Operation Centerセンター長
大手SI’er出身。2007年Sansan株式会社設立に合わせ、創業メンバーとして参画。法人向け「Sansan」の開発部長・プロダクトマネージャを経て、現在は名刺のデータ化やデータの分析・活用を行うData Strategy & Operation Centerのセンター長を務める。機械学習を中心とした技術を活用し、世界を変える新たな価値を探索中。

インタビュー:波多野智也(アスタミューゼ株式会社)