情報更新
ツイートの記録を停止しています

 

ツイート検索

 

@kimutansk
サイトメニュー
Twilogユーザー検索
新規ツイートの取得を再開しました!取得再開にはログインが必要です。

Twilog

ツイートの記録を停止しています

このアカウントはTwitter APIの仕様変更の影響でツイートの記録を停止しています。
記録を再開するには、Twilogにログインしてください。

 

@kimutansk

Sotaro Kimura@kimutansk

  • 374フォロー
  • 991フォロワー
  • 85リスト
Stats Twitter歴
4,843日(2010/12/26より)
ツイート数
26,526(5.4件/日)

ツイートの並び順 :

表示するツイート :

2018年01月31日(水)1 tweetsource

2018年01月30日(火)7 tweetssource

1月30日

@kimutansk

Sotaro Kimura@kimutansk

まさにその通りではありますねぇ。社内に対する愚痴をつぶやくくらいならさっさか転職すればいいとは思います。 > RT

posted at 10:21:40

2018年01月29日(月)2 tweetssource

2018年01月28日(日)2 tweetssource

1月28日

@kimutansk

Sotaro Kimura@kimutansk

データエンジニア、アナリストからなるデータ分析基盤チームのやるべきことと拡大する際に気を付けるべき4部作。面白い。最後にBigBrotherでのオファーがあるところもそれっぽくていいですねw / “Building The An…” htn.to/nygfuSoJzC

posted at 18:23:05

2018年01月27日(土)2 tweetssource

 

非公開

retweeted at xx:xx:xx

1月27日

@kimutansk

Sotaro Kimura@kimutansk

KafkaのAck=allの時の動作、応答待ちの管理情報揃えて突っ込んで、後はBrokerがそのあたり気にせずにFetchしていき、追いついた段階で応答返すあたり、処理は追いにくいっちゃ追いにくいですね。Transactionの概念が入ったので、よりそのあたり入り組んできた感はあります。

posted at 11:16:12

2018年01月26日(金)3 tweetssource

 

表示拒否

retweeted at xx:xx:xx

2018年01月25日(木)3 tweetssource

1月25日

@kimutansk

Sotaro Kimura@kimutansk

尚、Spark Structured Streaming + Kafkaでログレベルをデバッグにすると1メッセージ毎に1行ログが出力するというとんでもない状況のため、分あたりログ量がGB級に到達して戦慄したのもいい経験でした。(? Executorが皆で全速でログ出すとやばいですね。

posted at 09:08:32

1月25日

@kimutansk

Sotaro Kimura@kimutansk

分散ミドルでエラーパターン網羅なんてできるとは思えませんし。単にコメントに「これは発生しないはず。発生するということは俺たちがKafkaの内部動作を誤解しているのに違いない。」がほっこり来ただけですか。

posted at 09:05:22

1月25日

@kimutansk

Sotaro Kimura@kimutansk

KafkaのデータのOffset巻き戻りが確定した時、これ完全にやらかしたかと思いましたが、バックアップ経路があるのはやはり大事や。Spark Structured StreamingがKafkaのエラーパターンに対応してないというのはありますが、まぁそのあたりはどういうパターンが発生するか網羅なんてできないでしょうしね

posted at 09:01:55

2018年01月24日(水)9 tweetssource

1月24日

@kimutansk

Sotaro Kimura@kimutansk

Kafka Brokerが保持するログのOffset逆行とかやらかしてしまいましたが、私は元気です(違 ReplicaFetcherで飛び交うリクエストと応答の内容をソースコード見て確認しないといけませんね。 何を満たしたら今回のような事象が発生するのか。

posted at 19:57:30

1月24日

@kimutansk

Sotaro Kimura@kimutansk

とりあえず、非常用に別経路のログを一定期間残しておいたのが助かった、という感じですか・・・ 今回やらかした分については復旧はできる。

posted at 17:53:07

1月24日

@kimutansk

Sotaro Kimura@kimutansk

ただ、事実としてはKafkaのローリングアップデート時に再起動の間隔次第では特定のPartitionのLogSegment中にOffsetが巻き戻るログが存在する状況になりえる。そしてそれはKafka_1.0.0でも発生すると。Ack=1で性能重視にしたのがまずかったかですかねぇ。

posted at 17:52:28

1月24日

@kimutansk

Sotaro Kimura@kimutansk

ざっとKafkaのログを見た限り、多少の欠落は発生しても、Offsetの巻き戻りは発生しそうには見えないのですが、何があった・・・

posted at 17:40:55

1月24日

@kimutansk

Sotaro Kimura@kimutansk

あー、Kafka上で順にメッセージを読んでいくと、Offsetが巻き戻っている個所があって、それがSpark Streaming的には予期しない流れなのか。どういう条件を満たしたらこれが発生するかを確認しないと。

posted at 16:50:37

1月24日

@kimutansk

Sotaro Kimura@kimutansk

ConsumerがKafkaから取得した結果で、Spark StreamingのConsumerがもっているレコードのIteratorを辿っていくと、何故か古いデータが引っかかってOffset値の矛盾でエラーになって死ぬわけですか。実際にこれはなぜ発生するかが甚だ疑問ではありますね。

posted at 15:50:01

2018年01月23日(火)3 tweetssource

2018年01月22日(月)7 tweetssource

1月22日

@kimutansk

Sotaro Kimura@kimutansk

やはり帰りの経路、電車乗って帰れる状況じゃありませんでしたか。とりあえず帰宅は出来たのでいいっすか。

posted at 17:40:04

1月22日

@kimutansk

Sotaro Kimura@kimutansk

さーて、電車も人があふれて止まってたりするわけですし、年に1回くらいしかないでしょうし、雪を浴びながら歩いて帰りますか!(おい

posted at 16:33:24

1月22日

@kimutansk

Sotaro Kimura@kimutansk

朝から最初っから在宅でいいよというアナウンスがありつつも、家寒いのでオフィスに来て仕事しているあたり、生息地を会社と宣言しても問題ない気もしますねぇ。

posted at 14:13:59

1月22日

@kimutansk

Sotaro Kimura@kimutansk

現状オンプレとクラウド間の通信がProcessing時に発生すると通信費で爆死するので、単に透過的に見えて、扱えるだけだとハイブリッド環境からみると、いまいち美味しくないですからね。

posted at 08:51:20

2018年01月21日(日)9 tweetssource

1月21日

@kimutansk

Sotaro Kimura@kimutansk

MapReduceをTable>Stream>Tableの流れで説明するの、わかりやすいですね。気になるのはAtWatermarkをどう判断するかですが、最適解があるわけでもないので、ドキュメントもきちんと読もう・・ / “Fo…” htn.to/tGBGoZW

posted at 18:27:21

 

非公開

retweeted at xx:xx:xx

1月21日

@kimutansk

Sotaro Kimura@kimutansk

Zookeeperのクラスタでホスト吹っ飛んだ場合、完全な物理上で運用してると厄介でしたが、ENIやら適切な仮想化基盤使えばこのあたり対応できるんですよね。 / “Rock Solid Kafka and ZooKeeper O…” htn.to/tg91ga

posted at 14:58:35

1月21日

@nori76

とくさん|マイコーピング@nori76

KPIは事業を「論理的に分解」したものであるけれど、実務の領域では、KPIとはまずもって事業責任者の「コミットメント」を皆につたえるメッセージ。それを良くすれば必ず事業が良くなるという責任者自身の「確信」や「覚悟」がないと機能しない。ここがよく理解されてないケースが多い。

Retweeted by Sotaro Kimura

retweeted at 13:21:14

 

表示拒否

retweeted at xx:xx:xx

2018年01月20日(土)1 tweetsource

1月20日

@kimutansk

Sotaro Kimura@kimutansk

こんな感じでネットワーク流量を基に実際にどこまで使えそうなの?という限界性能出して落とし込んでいくアプローチも面白い。 / “How To Size Your Apache Flink® Cluster: A Back-of-t…” htn.to/zihEy7

posted at 17:19:14

2018年01月19日(金)4 tweetssource

1月19日

@kimutansk

Sotaro Kimura@kimutansk

Topicをどう分けるかについての話。順序関係を保つ必要があるか否かが最重要判断基準など、内容は参考になりますし、あとはスキーマの適用戦略選択できるようになったのか。Schema Registry / “Should You P…” htn.to/xYVVNk

posted at 20:32:03

1月19日

@enakai00

E. Nakai@enakai00

@TJO_datasci 仮にこれが本質的な何かだとすると、もはや、「エグゼクティブ向けの説明」というのは、(聞き手を満足させる以外には)実質的な意味がないという事に・・・・。ひー。

Retweeted by Sotaro Kimura

retweeted at 12:13:54

このページの先頭へ

×