Skip Main Navigation
Page Content
This event has ended

Hadoop Conference Japan 2014

Hadoop User Group Japan

Tuesday, July 8, 2014 from 10:00 AM to 8:00 PM (JST)

Hadoop Conference Japan 2014

Ticket Information

No tickets available.

Who's Going

Loading your connections...

Share Hadoop Conference Japan 2014

Event Details

■Hadoop Conference Japan 2014 は無事に終了しました。
多くの皆さんにお越し頂き、ありがとうございました。

gihyo.jpにレポート記事が掲載されています
日本よ,これが2014年のHadoopだ!─「Hadoop Conference Japan 2014」基調講演レポー

ITproにレポート記事が掲載されています
「Hadoopはビッグデータの“OSカーネル”」、Hadoop Conference Japan開催
NTTデータが4000コアのクラスターでSparkを試行、NTTドコモからの要望受け

Publickeyにレポート記事が掲載されています
YARNの登場によりHadoopは複数の並列分散処理エンジンを併用できる環境へ
HadoopはいずれOLTPも実現し、エンタープライズデータハブとなる

本会の様子は 公式Twitterアカウント @hadoopconf でお届けしています。

 

▲懇親会の最後に皆さんと記念撮影しました。



並列分散処理フレームワーク Apache Hadoop および周辺のオープンソースソフトウェアに関するイベントです。日本Hadoopユーザー会の有志によって運営されます。今回で5回目の開催となります。
 
Hadoopや並列分散処理に興味のある技術者の方はご自由に参加頂けます。
参加費は無料です。イベント終了後に懇親会を行います。併せてご参加ください。
 
Hadoopに関する技術トピック、活用事例に加えて、今回は Apache Hadopの生みの親 Doug Cutting氏 (Cloudera)や Apache Spark 主要開発者の Patrick Wendell氏 (Databricks)らも来日し、最新動向に関する講演も予定しています。貴重な機会になるものと確信しています!

■日時
2014年7月8日(火) 10:00~19:45 (受付開始 9:30)

■会場
ベルサール汐留

■主催
日本Hadoopユーザ会

■後援・会場提供
株式会社リクルートテクノロジーズ

■ブース出展
Cloudera、SAS Institute Japan、Treasure Data、日本アイ・ビー・エム、MapR Technologies

 



■タイムテーブル

  Keynote
10:00

【キーノート】
 米谷 修 (リクルートテクノロジーズ)
 濱野 賢一朗 (日本Hadoopユーザー会, NTTデータ) [講演資料]
 Doug Cutting (Hadoop生みの親, Apache Software Foundation, Cloudera)
  『The Future of Data』 [講演資料]
 Patrick Wendell (Apache Spark主要開発者, Databricks)
  『The Future of Spark』 [講演資料]
 太田 一樹 (Treasure Data CTO)
  『Hadoopエコシステムの変遷と、見えてきた使いどころ』 

12:00 昼食
12:10 (ランチ会場)   マルチテナント化に向けたHadoopの最新セキュリティ事情 [講演資料]
小林 大輔 (Cloudera)
  A会場 (B1)
B会場 (2F)
C会場 (2F)
13:00 リクルート式Hadoopの使い方 3rd Edition [講演資料]
石川 信行(リクルートテクノロジーズ)
Hadoop用の標準GUI、Hueの最新情報 [講演資料]
川崎 達夫(Cloudera)
Google BigQueryの大規模JOIN・UDF・Hadoop対応で何が変わるか [講演資料]
佐藤 一憲(Google)
13:50 SQLによるバッチ処理とストリーム処理 [講演資料]
田籠 聡 (LINE)

Hivemall: Apache Hiveを用いたスケーラブルな機械学習基盤 [講演資料]
油井 誠(産業技術総合研究所)

Twitterデータ提供サービスにおけるHadoopの活用事例
佐藤 勇一郎、関 堅吾(NTTデータ)
14:40 A Deeper Understanding of Spark Internals [講演資料]
Patrick Wendell (Databricks)
Taming YARN: how can we tune it? [講演資料]
小沢 健史 (NTT)
Mahoutによるアルツハイマー診断支援へ向けた取り組み [講演資料]
髙田 正彬 (新日鉄住金ソリューションズ)
15:40

Apache Drill: Building Highly Flexible, High Performance Query Engines [講演資料]
M.C. Srivas (MapR)

Spark1.0での動作検証 - Hadoopユーザ・デベロッパから見たSparkへの期待 [講演資料(ゲストスピーカー: NTTドコモ 田中 聡)] [講演資料]
土橋 昌 (NTTデータ)

(ライトニングトーク)

※詳細は下記をご覧ください
16:30 Evolution of Impala - Hadoop 上の高速SQLエンジン、最新情報 [講演資料]
嶋内 翔(Cloudera)
Treasure Data on The YARN [講演資料]
小林 隆(Treasure Data)
HBaseを用いたグラフDB「Hornet」の設計と運用 [講演資料]
鈴木 俊裕、梅田 永介(サイバーエージェント)
17:20

並列SQLエンジンPresto - 大規模データセットを高速にグラフ化する方法 [講演資料]
古橋 貞之(Treasure Data)

実践機械学習 —MahoutとSolrを活用したレコメンデーションにおけるイノベーション [講演資料]
草薙 昭彦 (MapR)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing [発表資料]
大橋 雅人 (日本オラクル)
   懇親会 (18:15-19:45) - 参加費:2000円

 


 

■ A会場

 

『リクルート式Hadoopの使い方 3rd Editions』

 講演者: 石川 信行, 株式会社リクルートテクノロジーズ ITソリューション統括部 ビッグデータ2G

リクルートでは、そのほぼすべての事業においてHadoop・HBaseなどを利用して分析・集計を行っています。昨年同カンファレンスにて発表した内容から1年間でどれだけ利用が進み、分析内容が遷移してきたのかを最新の事例を交えて説明いたします。また、新たなビジネス適応に向けて検証真っ只中の技術やロジックなどの一部をご紹介するとともに今後のリクルートにおけるデータ解析基盤構成や利用の展望などについても合わせてお話いたします。

『SQLによるバッチ処理とストリーム処理』

 講演者: 田籠 聡, LINE株式会社

HiveやPrestoなどSQL系言語によるバッチ処理は多くの場所で使われるようになっています。また一方でStormやKafka、AWS Kinesisといったストリーム処理も普及の兆しを見せています。この講演では、処理記述言語としてSQLを用いたストリーム処理のシステム構成例をNorikraというミドルウェアを中心として紹介するとともに、Hive/PrestoとNorikraによるLambda Architecture構成についてその利点と使い分けについて紹介します。

『Apache Drill: Building Highly Flexible, High Performance Query Engines』

 講演者: M.C. Srivas, CTO and Co-Founder, MapR Technologies

SQL is one of the most widely used languages to access, analyze, and manipulate structured data. As Hadoop gains traction within enterprise data architectures across industries, the need for SQL for both structured and loosely-structured data on Hadoop is growing rapidly Apache Drill started off with the audacious goal of delivering consistent, millisecond ANSI SQL query capability across wide range of data formats. At a high level, this translates to two key requirements – Schema Flexibility and Performance. This session will delve into the architectural details in delivering these two requirements and will share with the audience the nuances and pitfalls we ran into while developing Apache Drill.

『Evolution of Impala - Hadoop 上の高速SQLエンジン、最新情報』

 講演者: 嶋内 翔, Cloudera 株式会社

Cloudera Impala は、Apache Hadoop 上で動作する、オープンソースの低レイテンシ SQLクエリエンジンです。前回のHCJ での発表(Impala0.4)から1年半が経過し、Impala はベータから GA となり(最新版は 1.3.1)、大きな進化を遂げています。UDFサポートの追加、全ノードによる集計処理など、かつての制限事項の多くが克服され、Parquetフォーマットのサポート、YARNによるリソース管理コンポーネント LIamaのリリースなど、本番環境での利用に耐えうる数多くの便利な新機能を追加しています。本セッションでは Cloudera Impalaの新しい機能について紹介します。

『並列SQLエンジンPresto - 大規模データセットを高速にグラフ化する方法』

 講演者: 古橋 貞之, Treasure Data, Inc.

Facebookが公開した分散並列SQL実行エンジン『Presto』について解説します。Prestoとそのエコシステムによって、コマンドラインやBIツールはもちろん、PHPやRubyなどで書かれたWebアプリケーションから大規模なSQLクエリを直接実行し、数秒から数分程度で集計結果を得ることが可能になりました。その大きな導入メリットと、オープンな開発体制、高い拡張性と美しいソースコードによって、公開から約半年程度しか経っていないにもかかわらず、そのコミュニティは急速に拡大しています。本講演では、Prestoの概要やアーキテクチャから具体的な使い方まで、網羅的に解説します。


 

■ B会場

 

『Hadoop用の標準GUI、Hueの最新情報』

 講演者: 川崎 達夫, Cloudera株式会社 エデュケーションサービス

HueはHadoopエコシステム用に開発されているオープンソースのWebUIです。HueはCDHやHDP、MapRなどのディストリビューションでも採用されており、ウェブブラウザからHDFSやHive、Impala、HBaseなどのエコシステムを操作することができます。本セッションではHueの概要から最新の情報までを簡単に紹介します。

『Hivemall: Apache Hiveを用いたスケーラブルな機械学習基盤』

 講演者: 油井 誠, 独立行政法人産業技術総合研究所 情報技術研究部門

Apache Hive上で動作するオープンソースの機械学習フレームワークHivemallについて紹介する。6月上旬のHadoop Summit 2014, San Joseで日本人として唯一の発表をしてきた内容について述べる。

『Taming YARN: how can we tune it?』

 講演者: 小沢 健史, NTT

YARN は Apache Hadoop プロジェクト内に存在する汎用クラスタ管理フレームワークです.YARN を利用することで,MapReduce/Spark/Tez などの複数の分散処理基盤をデータを動かすことなく効率的に動作させることができます.しかしながら,MapReduce v1 で使っていたノウハウが上手く利用できないため運用の際につまずくことがあるかと思います.そこで本発表では,Hadoop YARN 開発者の観点から,YARN の現状と動作の仕組みを踏まえたチューニングポイントや注意すべき点について解説します.

『Spark1.0での動作検証 - Hadoopユーザ・デベロッパから見たSparkへの期待』

 講演者: 土橋 昌, 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス

これまでに幾つものHadoopクラスタを開発、運用してきました。HadoopによってディスクIOの並列化による分散処理の恩恵を得られるようになりましたが、一方でここ数年Sparkのようなオンメモリ高速処理基盤への期待を抱いています。今回、メジャーバージョン1.0が登場したことを受け、Sparkのもつ基本的特徴を確認するため、オンプレミス環境で動作確認した結果を紹介します。またその際に得られたTipsを紹介します。(7月1日にサンフランシスコで開催される Spark Summit での講演内容とほぼ同じものを予定しています

『Treasure Data on The YARN』

 講演者: 小林 隆, Treasure Data, Inc.

2013年の10月にHadoop2.0の正式版となる2.2.0がリリースされて以来、各ディストリビューションも追随するように2系のリリースがされYARNを正式対応するようになりました。また、その一方で2系ではMRv1は非対応であったり、deprecatedとなっています。Treasure Dataはいち早くMRv1からYARN(MRv2)への切り替えを念頭に検証してきました。現在、Treasure Data上でどのようにYARNの運用を行っているかをノウハウ、バッドノウハウと共にお話しします。

『実践機械学習— MahoutとSolrを活用したレコメンデーションにおけるイノベーション』

 講演者: 草薙 昭彦, MapR Technologies システムエンジニア

機械学習は、増え続けるデータをもとに、事業戦略の判断やより正確な予測、関連性の推定を行うための、重要なツールです。機械学習の中でも、最も幅広く活用されているアプリケーションはレコメンデーションエンジンです。スケーラブルな機械学習ライブラリであるMahoutは、レコメンデーションの生成とデータの扱いをシンプルなものにしてくれます。本講演では、より構築が簡単なレコメンデーションエンジンのデザインと、そのイノベーティブな実装方法を活用した場合の利点を紹介します。


 

■ C会場

 

『マルチテナント化に向けたHadoopの最新セキュリティ事情』

 講演者: 小林 大輔, Cloudera株式会社 カスタマーオペレーションズエンジニア

近年、Apache Hadoopとそのエコシステムは、特定のユーザが単一のMapReduceジョブを流すだけのシステムから、複数のユーザ・組織が日々あらゆるワークロードを実行する基盤へと移行しつつあります。それに伴い、Hadoopクラスタに求められるセキュリティ要件として、ユーザが実行可能な処理を制御する必要が出てきました。本セッションでは、マルチテナントクラスタにおけるセキュリティ環境を実現するための、Kerberosによる認証機構、HDFSやYARNにおける最新のACL機構、HiveやImpalaテーブルへの操作を制御するApache Sentryについて紹介します。

『Google BigQueryの大規模JOIN・UDF・Hadoop対応で何が変わるか』

 講演者: 佐藤 一憲, Solutions Architect, Cloud Platform GBU, Google Inc.

Googleの大規模クエリサービスBigQueryに新たに追加された機能「BigQuery Connector for Hadoop」により、BQ上のデータをHDFSにインポートせずにHadoopでアクセス可能となります。また、大規模JOIN機能やJavaScriptによるユーザー定義関数(UDF)等の新機能を用いることで、これまでHadoopを必要としていた用途の多くをBQのみで処理可能となります。HadoopユーザーにとってBQがどのようなメリットを提供するか解説します。

『Twitterデータ提供サービスにおけるHadoopの活用事例』

 講演者: 佐藤 勇一郎, 株式会社NTTデータ 第三法人事業本部 / 関 堅吾, 株式会社NTTデータ 基盤システム事業本部

NTTデータは、ツイートデータの再販をTwitter社から許諾されている、国内初にして唯一の企業であり、過去に投稿されたすべての日本語ツイートを取得できる「Twitterデータ提供サービス」を運営しています。本セッションでは、Twitterデータ提供サービスの概要や、ツイートデータを活用した分析事例についてご紹介するとともに、大量のツイートデータをHadoopで効率的に格納・抽出するために行っている工夫についてご説明します。

『Mahoutによるアルツハイマー診断支援へ向けた取り組み』

 講演者: 髙田 正彬, 新日鉄住金ソリューションズ株式会社

高齢化社会を迎えた日本において、認知症患者は増加の一途をたどっており、その社会的費用は10兆円を超えると言われています。そのため、認知症の多くを占めるアルツハイマー病(AD)の早期発見は、非常に重要な課題となっています。当社は、独立行政法人NEDOのプロジェクトを通じ、AD早期診断の支援に取り組んでいます。本講演では、その取り組みの中で実施した、MahoutによるAD判別の検証事例についてご紹介します。Mahoutを活用することで、複数のデータを組み合わせた精度の高いAD判別が実現でき、診断支援への応用も期待できます。

『HBaseを用いたグラフDB「Hornet」の設計と運用』

 講演者: 鈴木俊裕,梅田永介, 株式会社サイバーエージェント Ameba Technology Laboratory

Hornetは、HBaseを用いたグラフ構造を保存するためのデータベースです。株式会社サイバーエージェントでは、スマートフォンプラットフォームを運営しています。プラットフォームを運営していくにあたり、ソーシャルグラフを保存するデータベースが必要となりました。ソーシャルグラフのデータサイズは日々大きくなっていくため、スケールするデータベースが必要となります。そこで、弊社では、ソーシャルグラフを保存するデータベースとしてHBaseを採用し、Hornetの開発に着手しました。本講演では、簡単にHBaseの概要やモデリングについて話した後に、HBaseでどのようにグラフ構造を実現したかや、HBaseをどのように運用しているかを紹介します。また、Hornetでは、グラフDBの他に、Zookeeperを用いたロック機能も提供しています。そこから得た、Zookeeperの知見や運用ノウハウについても紹介します。Hornetは近日OSS公開予定です。

『HadoopとRDBMSをシームレスに連携させるSmart SQL Processing』

 講演者: 大橋 雅人, 日本オラクル株式会社 データベース事業統括 製品戦略統括本部 プロダクトマーケティング本部 Cloud & Big Data推進部

ビッグデータ活用のためには、アーキテクチャを決定する非常に早い段階で、ビッグデータの将来について理解しておくことが重要です。企業でのHadoopの活用という観点では、既存のスキルと投資資産を活用し、Hadoopと既存のRDBMSをスムーズに連携させたいという要望が顕著に高まってき ています。このセッションでは、HadoopとRDBMSの双方の技術を活用した統合的なデータ 管理を実現する取り組みをご紹介します。具体的には、RDBMSと Hadoop に格納されたすべてのデータを単一のViewとして扱い、RDBMSとHadoopをスマートなSQL処理によって、ひとつのデータ管理システムとし てシームレスに統合する技術をとりあげます。


 

 ライトニングトーク

【C会場:15:40~16:20】
・Shib: WebUI provides cross-over between Hive and MPP [講演資料]
 (田籠 聡, LINE株式会社)
・Cloudera サポートの現場から、YARNの最新事情 [講演資料]
 (嶋内 翔, Cloudera 株式会社)
・SparkとMLlibで実現するかんたん高速機械学習 [講演資料]
 (山下 勝司, 株式会社マーズフラッグ R&D部)
・FluentdやNorikraを使ったデータ集約基盤への取り組み紹介 [講演資料]
 (添田 健輔, リクルートテクノロジーズ ITソリューション統括部 ビッグデータインフラG)
・Apache Flume 1.5を活用したAmebaにおけるログのシステム連携 [講演資料]
 (飯島 賢志, 株式会社サイバーエージェント)
・5分でわかる Apache HBase 最新版 [講演資料]
 (嶋内 翔, Cloudera 株式会社)



 

 ■ その他
・Twitterハッシュタグは #hcj2014 です。

・Ustreamで会場の様子を配信しました。
 Room A: http://www.ustream.tv/channel/hadoop2014-a
 Room B: http://www.ustream.tv/channel/hadoop2014-b
 Room C: http://www.ustream.tv/channel/hadoop2014-c



■実行委員会

Have questions about Hadoop Conference Japan 2014? Contact Hadoop User Group Japan

When & Where


ベルサール汐留
東京都中央区銀座8-21-1
住友不動産汐留浜離宮ビル
, 104-0061
Japan

Tuesday, July 8, 2014 from 10:00 AM to 8:00 PM (JST)


  Add to my calendar

Interested in hosting your own event?

Join millions of people on Eventbrite.

Please log in or sign up

In order to purchase these tickets in installments, you'll need an Eventbrite account. Log in or sign up for a free account to continue.