Actions Panel
Hadoop / Spark Conference Japan 2019
When and where
Date and time
Location
きゅりあん 品川区東大井5丁目18−1 (大井町駅すぐ) 東京都 Japan
Map and directions
How to get there
Description
Hadoop Conference Japanは、並列分散処理フレームワーク Apache Hadoop, Apache Spark および周辺のオープンソースソフトウェアに関するイベントです。日本Hadoopユーザー会の有志によって運営されます。今回で7回目の開催となります。
前回よりSpark Conference Japan を併催し、今回より Hadoop / Spark Conference Japan として統合を行いました。
Hadoopや並列分散処理に興味のある技術者の方はご自由に参加頂けます。参加費は無料です。イベント終了後に懇親会を行います。併せてご参加ください。
■日時
2019年3月14日(木) 10:00~19:00 (受付開始 9:30)
■会場
きゅりあん (東京都品川区、大井町駅すぐ)
ヤマダ電機LABIを正面に見て、左手のエレベータより8階受付までお越しください。
■主催
日本Hadoopユーザ会
■スポンサー(申込順)
株式会社サイバーエージェント、LINE株式会社、Dell EMC、ヤフー株式会社、 株式会社NTTデータ、Cloudera株式会社、マップアール・テクノロジーズ株式会社、 トレジャーデータ株式会社
■プログラム
Keynote 10:00ご挨拶、ご案内
濱野 賢一朗 (日本Hadoopユーザー会)
Apache Hadoopの現在と未来
鯵坂 明(Hadoop PMC member)、Arpit Agarwal(Hadoop PMC member)
The upcoming Spark 3.0: What’s Next
猿田 浩輔(Sparkコミッタ)、Xiao Li(Spark PMC member)
Cloud-Nativeなデータ分析基盤におけるPrestoの活用
廣瀬 智史(SmartNews, Inc.)
OASIS – Apache Spark を活用した LINE 全社のデータ分析ツール
吉田 啓二(LINE株式会社)
B会場
C会場
ランチ会場
Apache HBaseの現在 – 火山と呼ばれたHBaseは今どうなっているのか
鈴木 俊裕(Cloudera)
ランチ会場
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
小野寺誠( マップアール・テクノロジーズ株式会社)
ランチ会場
ライトニングトーク
■ ライトニングトーク
ランチタイム(会場は確定後掲載します)
・スキーマ付き分散ストリーム処理を実行可能なFlinkSQLClientの紹介 木村宗太郎(dotData Japan)
・データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 菅沼 嘉一 (ソネット・メディア・ネットワークス)
・SparkをRESTfulに利用できるApache Livyを導入した話 植草智輝 (ヤフー株式会社)
・Introduction to Apache Hivemall v0.5.2 and v0.6 油井誠(トレジャーデータ株式会社)
■ キーノート
『Apache Hadoopの現在と未来』
講演者: 鯵坂 明, Hadoop PMC member、Arpit Agarwal, Hadoop PMC member
前回のHadoop / Spark Conferenceから3年が経過しましたが、その間にApache Hadoopを取り巻く状況は劇的に変化してきたと思います。前半では鯵坂が、その状況の変化に対してHadoopがどのように追従してきたかについて紹介し、これから先、未来のHadoopがどのような機能を身につけていくのか予想します。また、時代の流れに追従していく中で、昨年にはHadoopにオブジェクトストアの機能を追加するプロジェクトであるOzoneが、今年にはHadoop上でディープラーニング処理を簡単に実行するためのプロジェクトであるSubmarineが、Hadoopのサブプロジェクトに加わりました。後半ではOzoneの主要開発者でもあるArpit Agarwal氏が、Ozoneが開発された背景と概要およびユースケース、そして今後の展望について詳しく紹介します。
『The upcoming Spark 3.0: What’s Next』
講演者: 猿田 浩輔, Sparkコミッタ、Xiao Li, Spark PMC member
We will talk about the exciting new developments in the upcoming Spark 3.0 as well as some other major initiatives that are coming in the future.
『Cloud-Nativeなデータ分析基盤におけるPrestoの活用』
講演者: 廣瀬 智史, SmartNews, Inc.
SmartNewsでは、ユーザーの行動ログを含め様々なデータを分析し、プロダクトの改善に役立てています。その一環として、Amazon EMR上で複数のHadoopクラスターを運用し、稼働するHiveでクエリを実行することで、ETL処理を行っております。また、それらクラスタ上のそれぞれの Hive Metastore へアクセスし、データを集約する手段として、AWS EC2 上で構築した Presto クラスタも利用しております。本講演では、Cloud-NativeなHadoopクラスタを利用しデータ分析基盤を運用する事例として、現在のシステム構成や、私たちが感じている価値や課題、発生した問題などをご紹介します。
『OASIS - Apache Sparkを活用したLINE全社のデータ分析ツール』
講演者: 吉田 啓二, LINE株式会社
LINE では、 "OASIS" という、独自に開発した内製のデータ分析ツールを 2018 年 4 月から運用しており、 LINE の各社員が、このツール上で Spark アプリケーション (Spark, Spark SQL, PySpark, SparkR) を書いて実行することで、担当サービスのデータ分析やレポート作成、 ETL 開発・運用などを行っています。この発表では、 (1) OASIS の開発動機、 (2) OASIS の特徴・機能概要、 (3) LINE 社内での OASIS の利用規模・ユースケース、の 3 点を主にお話しします。
■ A会場
『Apache HBaseの現在 – 火山と呼ばれたHBaseは今どうなっているのか』
講演者: 鈴木 俊裕, Cloudera
Apache HBase(以降、HBase)は、NoSQLの一種であり、Hadoop上で動作する分散データベースです。HBaseは、2018年の4月に2.0にメジャーアップデートされ、Procedure version 2やその仕組みを用いたAssignment Manager version 2など様々な改善がなされ火山と呼ばれた時代とは別物になっています。また、In-Memory Compactionやoffheapを用いた読み込み/書き込みパス等の機能追加/改善がなされパフォーマンスも向上しています。現在のHBaseの動きとしては、クラウド上でHBaseを動かすための開発や、Persistent Memoryを使うための取り組みなど様々な開発が行われています。本講演では、前半はHBaseの現在の状況や機能を紹介し、後半は現在開発中の機能や改善について紹介します。
『1日100個以上のHadoopクラスターを使い捨てる方法 & Spark Streamingで全世界の混雑状況を20分ごとに集計』
講演者: 中里 浩之, ソフトバンク、濱田 佑, ソフトバンク
ソフトバンクのグループ各社では様々な種類のビッグデータを効率良く処理するため、AWSを始めとしたパブリッククラウドやHadoop/Sparkなどを積極的に活用しています。グループ会社の一つである株式会社Agoopでは全世界のスマートフォンアプリから1日数億件&テラバイトオーダーのログを収集しており、その基盤としてAWSを利用しています。本講演ではAgoopにおけるAmazon EMR / Hadoop / Sparkの活用事例2件をお話しさせて頂きます。
事例1: 1日100個以上のHadoopクラスターを使い捨てる方法
Agoopでは収集したログをParquet形式に変換する毎時のバッチ処理などでSpark on EMRを活用しております。バッチ処理は他の時間帯のバッチ処理に影響を与えないよう独立したEMRクラスターで行い、処理が完了したらクラスターを終了する方式としており、1日に起動&削除するクラスターの数は50以上、多いときは100以上に上ります。オンプレミスでは考えられない大量のクラスターを「使い捨て」できるようにするためのクラウドならではの秘訣をお話しします。
事例2: Spark Streamingで全世界の混雑状況を20分ごとに集計
Agoopでは収集したログを20分単位で分析し、全世界のどこがどれ位混雑しているかを可視化するスマートフォンアプリ「混雑マップ」をリリースしています。そのバックエンドでは主にSpark Streaming on EMRを活用しています。20分というかなり長めのウィンドウをどのように処理しているのか、そのポイントや苦労した点などを中心にお話しします。
『Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ』
講演者: 関山 宜孝, Amazon Web Services Japan
昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。本講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop/Spark コミュニティの直近の開発状況についても解説します。
『スキーマレスカラムナフォーマット「Yosegi」で実現するスキーマの柔軟性と処理性能を両立したログ収集システム』
講演者: 井島 洸二, ヤフー株式会社
ヤフーではサービスのログをリアルタイムに収集し HDFSに保存します。保存時のフォーマットには多様なスキーマと膨大なログ量の対処が求められます。多様なスキーマにはJSON、膨大なログ量にはカラムナフォーマットが選択肢としてありますが、スキーマの柔軟性と処理性能はトレードオフの関係にあります。また、カラムナフォーマットで保存する過程でスキーマが必要なため、スキーマ管理を備える複雑なログ収集システムになります。この課題に対してスキーマレスカラムナフォーマット「Yosegi」を開発し、スキーマの柔軟性と高い処理性能を両立しつつ、スキーマ管理が不要なログ収集システムを実現しました。本講演ではOSS として公開している「Yosegi」を利用したログ収集システムとスキーマ更新についての事例を紹介しつつ、スキーマの柔軟性についてORC, Parquet との比較を言及します。
『Hive/Spark/HBase on S3 & NFS -- HDFSを運用しない気軽なHadoop/Spark』
講演者: 蒋 逸峰
Hadoopエコシステムの中には、ZookeeperやHDFSのようなトラブルに遭遇した場合に致命的なコンポーネントがいくつかあります。特にペタバイト級のHDFSの管理・運用は非常にチャレンジングなものになっています。ここで、HDFSを使わずにHadoop/Sparkが使えるなら、クラウドのように気楽な運用ができると考えられます。本セッションでは、Hadoopのクラウドストレージ対応の最新状況や、HDFSを使わないSpark/HBaseの事例を技術的に紹介します。セッションの前半では、S3A libraryを使ったHive/Spark、Hadoop magic committer、Hadoopのオブジェクトストレージ対応の最新状況をデモを交えながら技術的に説明します。セッション後半では、HBase on NFSについて説明します。具体的には、DFSのlocalfs実装を利用し、HBaseのデータをNFS mountされたストレージに配置します。通常のlocalfsだとWAL/HFileの可用性や性能に懸念がありますが、NFSのバックエンドとしてHDFSと同じかそれ以上のストレージを選択すれば充分に可用性と性能が出せます。実際に、Hadoopの外を見ればこういったストレージ実装はいくつもあります。HBase on NFSの設定方法や、オンプレミスとクラウドのNFS上の性能測定などを紹介します。
『マルチテナント Hadoop クラスタのためのモニタリング Best Practice』
講演者: 平野 智巌, 楽天株式会社
楽天の Hadoop Admin Team が運用する Hadoop クラスタは、80以上のチームが利用し、日々、5万以上のジョブが実行されています。このような状況では、通常とは異なる、マルチテナント Hadoop クラスタのための特別なモニタリングも必要となってきます。本セッションでは、マルチテナント Hadoop クラスタの運用、問題対応や、ユーザ・サポートのために、なぜモニタリングが重要であるのか。そして、試行錯誤しながら蓄積したモニタリングの Best Practice を、実際にモニタリングによって発見/解決した具体例と供に紹介します。また、皆さんに持ち帰っていただき、DIYできるよう、実装に必要な技術情報や Tips も紹介します。
■ B会場
『機械学習、グラフ分析、SQLによるサイバー攻撃対策事例 (金融業界)』
講演者:小野寺 誠(マップアール・テクノロジーズ株式会社 )
本事例は、APT攻撃対策やDDoS攻撃対策などに率先して取り組んでいる世界的にトップレベルの金融業界の事例です。SIEM製品や専用ソリューションがあるにもかかわらずビッグデータテクノロジーが求められた理由から説明しNetFlow/IPFIX、HTTP、DNSのトラフィック情報を分析する際に、どのように機械学習、グラフ分析、SQLを使い分け異常を検知したのか、機械学習のモデルや分析の考え方など具体的にご紹介します。
『HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み 〜エクサバイト級の分散ストレージを目指して〜』
講演者: 浅沼 孝信, ヤフー株式会社
Hadoopの分散ファイルシステムであるHDFSは、1台のマスターサーバーであるNameNodeが多くの役割を担っているためボトルネックになりやすく、大規模なクラスタやワークロードの重いクラスタではスケーラビリティに関するさまざまな問題が生じます。これらの課題を解消するために最近のHadoopコミュニティではRouter-based FederationやConsistency read from Standby NodeなどさまざまなHDFSの新機能が開発されています。本講演ではこれらの最新機能について紹介し、現在の開発状況について詳しく説明します。
『Ozone: An Object Store for Apache Hadoop』
講演者: Arpit Agarwal, Cloudera
Ozone is an object store for Apache Hadoop that solves the small file problem of HDFS. It allows users to store billions of files and access them as if they are on HDFS. Ozone plugs into existing Hadoop deployments seamlessly, and applications like Hive, LLAP, and Spark work without any modifications. Ozone also supports the Amazon S3 REST API which allows applications to work seamlessly on-prem and in the cloud.
This talk looks at the architecture, reliability, and performance of Ozone. We describe how simple and proven building blocks can be put together to build a scalable distributed object store.
We will show how to install an Ozone cluster, how to create volumes, buckets, and keys. We also show how to run Hive and Spark against an Ozone file system.
『HDFS におけるサポータビリティ(保守性)の改善について』
講演者: 小林 大輔, Cloudera
Hadoop エコシステムにおける HDFS は、データの永続化層として黎明期から活発に開発が進められてきました。近年では非常に安定しているプロダクトのひとつですが、それでも規模の拡大やコンポーネントの組み合わせにより障害、パフォーマンスのボトルネックが発生し、ユーザーやサポートベンダーを悩ませています。本講演では、HDFS のサポートを提供する立場から、実際に発生したインシデントとその対応策、そして、HDFS をよりサポータビリティの高い製品とするための最近の開発事情について紹介します。
『Automation of Hadoop cluster operations in ARM Treasure Data』
講演者:Yan Wang, トレジャーデータ株式会社
This talk will focus on the journey we in the Arm Treasure Data hadoop team is on to simplify and automate how we deploy hadoop. In Arm Treasure Data, up to recently we were running hadoop clusters in two clouds. Due to fast increase of deployments into more sites, the overhead of manual operations has started to strain us. Due to this, we started a project last year to automate and simplify how we deploy using tools like AWS autoscaling groups. Steps we have taken so far are modernize and standardize instance types, moved from manually executed deployment scripts to api triggered work flows, actively working to deprecate chef in favor of debian packages and AWS Codedeploy. We have also started to automate a lot of operations that up to recently were manual, like scaling in and out clusters, and routing traffic between clusters. We also started simplify health check and node snapshotting. And our goal of the year is close to fully automated cluster operations.
『Apache Kafkaって本当に大丈夫?~実際にいじめてみたのでお伝えします~』
講演者: 土橋 昌, 株式会社NTTデータ
Apache Kafka(以降、Kafka)は「A distributed streaming platform」と定義され、故障耐性をもった分散処理の仕組みであるとされています。そしてそれを期待したプロダクションのユースケースが近年世界的に生まれており、プロダクト名を耳にしたことのある方がますます増えたのではないでしょうか。しかしKafkaが担う「データを流す役割」はデータを活用するシステムの中でも重要なものであり、「本当に期待通りに動くのか」が気になるところかと思います。本セッションではKafkaのオーバービューをお伝えして基本をおさらいした後、私たちのチームで実施した「Kafkaクラスタの様々な要素を故障させる検証」からハイライトをお伝えします。
■ C会場
『DataFrameとDatasetの内部をのぞいてみる』
講演者: 石崎 一明, 日本アイ・ビー・エム株式会社
Apache Sparkでは、DataFrameというSQLライクなAPIと、Datasetというラムダ式を用いたAPI、の2つを用いると、Catalyst/Tungstenという最適化基盤の恩恵を受けて、高速に処理できるプログラムを書くことができます。DataFrameとDatasetの間には、記述できる処理・実装・性能に違いがあります。これらの違いについて、コミュニティの中でも完全に理解されているとは言えないと思います。この講演では、DataFrameとDatasetの間で、同じ処理を行うプログラムでなぜ性能が異なるのかを、実装を簡単に説明しながら理由をお話します。この講演は、Spark Summit 2017の"Demystifying DataFrame and Dataset"が元になります。
『Deep Dive into Spark SQL with Advanced Performance Tuning』
講演者: 上新 卓也, Databricks
Spark SQLはApache Sparkのコアモジュールの一つで、SQLや使いやすいAPIによる関係演算をスケーラブルで効率的に行うコンポーネントです。様々なデータソース(例: Hive, Cassandra, Kafka, Oracleなど)やファイルフォーマット(例: Parquet, ORC, CSV, JSONなど)のデータを処理、解析することができます。 本講演では、Spark SQLのクエリ処理ライフサイクルの技術的詳細について解説し、またどのようにパフォーマンスチューニングをするのかを紹介します。
『An Insider’s Guide to Maximizing Spark SQL Performance』
講演者: Xiao Li, Databricks
The common use cases of Spark SQL include ad hoc analysis, logical data warehouse, query federation, and ETL processing. Spark SQL also powers the other Spark libraries, including structured streaming for stream processing, MLlib for machine learning, and GraphFrame for graph-parallel computation. For boosting the speed of your Spark applications, you can perform the optimization efforts on the queries prior employing to the production systems. Spark query plans and Spark UIs provide you insight on the performance of your queries. This talk discloses how to read and tune the query plans for maximizing the performance.
『Spark SQL の性能改善の取り組み』
講演者: 吉田 啓二, LINE株式会社
LINE では、 "OASIS" という、独自に開発した内製のデータ分析ツールを 2018 年 4 月から運用しており、 LINE の各社員が、このツール上で Spark アプリケーション (Spark, Spark SQL, PySpark, SparkR) を書いて実行することで、担当サービスのデータ分析やレポート作成、 ETL 開発・運用などを行っています。全社員が自由に Spark SQL クエリを書いて実行できる環境において、データ基盤のリソースが効率的に使用されるようにするためには、長時間実行される非効率的なクエリの処理性能を、ツール・データ基盤側で改善することが重要になります。この発表では、テーブル・パーティションの統計情報の取得や、独自のクエリ最適化ルールの適用、Cost-based Optimizer の性能検証など、 OASIS における Spark SQL の性能改善の取り組みをご紹介します。
『Arrow_Fdw - PostgreSQLで大量のログデータを処理するためのハードウェア最適化アプローチ』
講演者: 海外 浩平, HeteroDB
Arrow_FdwはPostgreSQL用に設計されたFDW(外部データラッパ)モジュールで、Apache Arrow形式のデータファイルをPostgreSQLのテーブルのように読出し、SQLの豊富な統計解析機能を用いて集計する事を可能にします。加えて、PG-StromのSSD-to-GPU Direct SQL機能との併用で、一台あたり数GB/sの読み出し帯域を持つNVME-SSDと、デバイスあたり数千コアを搭載するGPUの能力を最大限引き出し、高密度なログ処理基盤を実現します。本セッションでは、Arrow_Fdwやその周辺技術と、その特長、ログ処理基盤への適用に向けた開発動向についてご紹介します。