初めまして、LINE Fukuokaに2015年新卒で入社したエンジニアSです。
先日、LINE Fukuokaのオフィスにて実施した第13回「LINE Developer Meetup」の模様をお届けします。
※前回の様子はこちら

今回も引き続き、大勢の方にお越しいただきました。
IMGP3532

第13回目の「LINE Developer Meetup」テーマは
1)「更新され続ける MeCab 用辞書 mecab-ipadic-NEologd」
2)「ビッグデータを分析するためのプラットフォームと、リアルタイムレポーティングへの取り組み」


1)「更新され続ける MeCab 用辞書 mecab-ipadic-NEologd」
@overlastが登壇して、彼自身がプライベートで開発しているMeCab 用の日本語形態素解析用辞書 mecab-ipadic-NEologd について紹介しました。

IMGP3563

mecab-ipadic-NEologdは形態素解析用辞書の中でも、流行語や表記ゆれに強く、顔文字や絵文字にも幅広く対応しています。
流行語に強いという点に関しては、ルールベースで語彙を自動生成することで、表記ゆれの網羅性を向上し、週2回の更新を可能にしているのですが、無限に増え続ける顔文字の対応は限界があるため、iOSとAndroidの標準IMEに含まれているもの限定になっているとのこと。
システムの改善は、mecab-ipadic-NEologdに対するつぶやきをTwitterでハリコミをして要望を掬いあげて、できる限り対応することで効率よく改善を進めるという内容でした。

私個人、表記揺れについても力技で網羅しているものとばかり思っていたので、ルールベースで自動生成していると聞いて、なるほどと思いました。
IMGP3540

 
2)「ビッグデータを分析するためのプラットフォームと、リアルタイムレポーティングへの取り組み」
弊社で利用している分析プラットフォームの全体像とNorikra, Elasticsearch, Kibana等を活用したリアルタイムレポーティング環境、その上で見えてきた課題や対応方法についてです。
IMGP3568

ログデータのうち、長期的なログデータは、fluentdからHadoop、Hive、Prestoに貯めて、ShibやCongnos、Pentaohを使って集計・表示を行い、リアルタイム集計は、Norikraにスキームを設定してElasticsearchからKibanaへ渡して表示しています。
分析プラットフォーム自体のログも同様にとってはいるけれど、分析プラットフォームの障害対応については、最終判断は人の手を用います。
例えば、fluentdの転送先を、いざというときは手動で切り替えるなどです。障害に自動で対応するためには、多くのことを想定しておく必要がありますが、基本的には発生した時に考えるという発想とのこと。


私はいつも、全て自動化しようとしてしまいますが、稀にしか起きないのであれば、起きてから考えれば良いという発想が眼からウロコでした。
自動化よりも人の手をかけた方がコストが低いことは、他にも多くありそうで、考え方を増やすきっかけになりました。



こちらは、発表後に行われた登壇者・弊社エンジニアも参加しての交流会の様子です。

Meet upへ参加いただいた方の中には、実際にmecab-ipadic-NEologdを使用されている方やビッグデータを取り扱っている方も多く、登壇者や弊社エンジニアを交え活発な技術交流の場になりました。

IMGP3602
IMGP3611

「LINE Developer Meetup #13」へご参加いただきましたみなさま、ありがとうございました。
LINE Fukuokaは引き続き、このような技術者同士の交流を活性化させるイベントを開催していきたいと考えております。



LINE Fukuokaでは、今回のテーマの1つでもあるビックデータ分析を行うデータサイエンティスト職の中途採用を行っております。是非こちらも併せてご覧ください。

データサイエンティスト採用情報
http://linefukuoka.co.jp/career/data_scientist.html

その他エンジニア職の募集についてはこちらをご覧ください。
▼LINE Fukuoka 公式企業サイト:採用ページ
http://linefukuoka.co.jp/career/list/engineer/