ぐー。 #hadoopmodeling も行きたかったが……。みなさんのメモと、とぅぎゃったーに期待 >< posted at 18:38:45 #article 「2011/06/29_Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第5回) #hadoopmodeling 」<http://togetter.com/li/155628 > : よむよむよむ >< posted at 22:14:51
出発直前にぷちMTG。思わず話しすぎて遅くなってしまったので、19:00 頃からの途中参加になりそうな気配…… #hadoopmodeling posted at 17:15:26
#event 2011/06/29「Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会 #005」<http://bit.ly/jFOAxh > : 水曜日は抜けにくいのよ……。といいつつ、席を仮確保しといた。 #hadoopmodeling posted at 02:12:44
どうやら、今夜の座談会に行く余裕がなさそう。泣く泣くキャンセルしておきます /_; ustってあるのでしたっけ……? #hadoopmodeling posted at 14:14:11 @nhide やった! これでそわそわせず、聴きながら作業できます ^^= #hadoopmodeling posted at 17:05:54 最初のセッションの話は少し前にお聞きしたので、聴き手の層が異なる前回と今回での反応の違いに興味がある #hadoopmodeling posted at 18:41:01 #event 2011/03/28「Hadoopを中心とした(中略)座談会(第4回)」<http://atnd.org/events/13089 >, ust: <http://ustre.am/hx3O > : 聴きながら作業をしてる #hadoopmodeling posted at 18:51:05 SQL に似た宣言型の言語で書くとしても、内部的には演算子レベルでは非同期で処理するという実現方法もあるわけで。SQL 即だめ、とも思えない。 #hadoopmodeling posted at 21:26:40 ストリームデータ処理システムとかも SQL + ECA みたいなものもあるし。 #hadoopmodeling posted at 21:27:33
@sumim ちょっと言い過ぎかなーとは思いましたけど、冗談めかしてでしたし、みんなネタだと分かってたかと。そのニュアンスを含め忘れた、あたしのメモの取り方の問題ですね m(.. )m #hadoopmodeling posted at 03:27:42 #index 「Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第3回) 参加メモ」<http://twilog.org/nsiena/date-101119/asc > #hadoopmodeling posted at 03:31:38
posted at 03:37:22
#event 2010/11/19「Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第3回)」<http://atnd.org/events/9098 > : キャンセル多いな。まだ空席があるぽい。 #hadoopmodeling posted at 16:24:15 不覚にも迷子しまくってしまって、30分遅れで到着…… /; #hadoopmodeling posted at 19:09:06 どういうか文脈か分からなかったけれどけど、モバイルエージェント (モバイルオブジェクト) な話だったらしい。なんか懐かしいあれこれを思い出した。最近はどんな具合なのかな。ここまでつかみということだったので安心。 #hadoopmodeling posted at 19:10:27 「Smalltalk の人は何でも Smalltalk が最初と言いたがるけど、Smalltalk は Simula の直系」(^^; #hadoopmodeling posted at 19:11:34 『分散環境の過去・現在・未来』 : いまこのセッションか <http://atnd.org/events/9098 > #hadoopmodeling posted at 19:12:27 「Simula のコルーチン。主流になったオブジェクト指向言語はコルーチンを捨ててしまったので、並行計算がめんどうになってる #hadoopmodeling posted at 19:15:19 「ここから並行オブジェクトの話 #hadoopmodeling posted at 19:16:57 .o(分散並行だと、ORB な話しか知らない。CORBA とか HORB とか Java RMI とか DCOM とか。研究系の分散エージェントシステムは措いとくと。 #hadoopmodeling posted at 19:19:00 「非同期メソッド起動。メッセージパッシング。」.o(コールバックで受け取る系か、Future パターンで隠蔽するか、他にあったかな #hadoopmodeling posted at 19:22:56 「アクターモデル。1970's Hewitt の提唱した計算モデル。」.o(マルチエージェントな世界かな。エージェントとモバイルオブジェクトと境界がよく分からない。自律的協調の有無かしらん。 #hadoopmodeling posted at 19:29:55 「アクターとCSP。アクターはすべてのメッセージを受け取り、非同期メッセージング。CSPはガード付きで特定のものを同期呼出し。 #hadoopmodeling posted at 19:32:03 「並行オブジェクトでの単一スレッド派と複数スレッド派。処理効率から、結果として後者が残った。同期処理の問題から、アクターのように単一スレッドモデルが見直されつつある。」.o(移動させやすいし、複製分散させやすいし #hadoopmodeling posted at 19:36:16 「複数スレッドプログラムをちゃんと書けるプログラマの数も問題。書けないなら、複雑性の低いモデルがよい #hadoopmodeling posted at 19:38:26 .o(アクターモデルは分かりやすいし、プログラマ的にも馴染みやすいだろうけれど。数理的なモデルはあるのかしら。処理戦略の最適化とかをするには、それがないとやりにくいよね。 #hadoopmodeling posted at 19:40:55 .o(エージェント指向 AOP はルールベースの自律協調・調停とか、あまり同意できなかったのを覚えてる。実用困難なのではないか、と。AOP はやりで「モバイルエージェント」と呼ばれたけど「モバイルオブジェクト」とならなかった理由は良く知らない。 #hadoopmodeling posted at 19:44:40 .o(えーと。タイトルにある「未来」はどう読み取ればよかったのかしらん ^^; #hadoopmodeling posted at 19:47:00 『クラウドのデータ処理の原則 (旧題?: Dryadを中心として、今後分散環境を考える)』: 設計とか、分散DBMS技術とか #hadoopmodeling posted at 19:48:13 「データの分類: 関係データ、ファイル、追記型など。従来の物理設計での非正規化。多対多だと組合せ数でデータ量が多くなり過ぎる問題。非正規化にはアドホック問合せにも対応できない。やはり結合処理は必須。」.o(分散問合せ処理技術の出番だ! #hadoopmodeling posted at 19:58:29 .o(このへんは、(分散)結合処理の基本だな。RDBMSの問合せ処理最適化手法が書いてある教科書を読むといろいろ載っていて楽しい。 #hadoopmodeling posted at 20:03:35 @cocoatomo selectivity は選択率で、演算前後のタプル数の比、かな。100タプルから10タプルが選択結果になるなら、選択率 0.1、と。 #hadoopmodeling posted at 20:06:19 .o(bit vector filter は、ビットマップ、シグネチャとかとも。 #hadoopmodeling posted at 20:08:09 「データスキュー。並列処理のスケーラビリティ: 初期化 < 相互作用 < データ偏在、で性能差。データの移動コストとノード当たりの計算コスト。 #hadoopmodeling posted at 20:12:00 おっと、バッテリの残りが少なくなってきた…… #hadoopmodeling posted at 20:12:32 「データ偏在の解決アプローチ: 1.データ分割・分配, 2.仮想プロセッサでの抽象化。土台は20年前」.o(分散RDBMSはもう少し前。1980頃からでなかったかしらん。 #hadoopmodeling posted at 20:22:13 .o(もうすこしあとだったっけかなぁ #hadoopmodeling posted at 20:22:42 .o(ヒストグラムとか統計データとかはメタデータとして処理前に得ておかないといけない。なので、別途処理をする必要がある。 #hadoopmodeling posted at 20:28:47 .o(データモデルと、データ処理アルゴリズムと、問合せ最適化機構と、索引機構と、物理ストレージと、トランザクション処理と、……。依存関係はあるけど、独立して見つめるべき。MR だろうと使える。車輪の再発明は全力で避けるべき。 #hadoopmodeling posted at 20:32:13 『座談会』: ここまでで気になったところなど #hadoopmodeling posted at 20:41:55 .o(分散DBMSは、国際会議だと SIGMOD/PODS, VLDB, ICDE 辺り。論文誌だと、ACM TODS とか、その辺かしらん。ずっと昔まで遡れる。HPC 系だとどの辺りかしら。 #hadoopmodeling posted at 20:48:23 .o(手順で考えるのは人間が並行して動けないからだよなー。そこから処理単位やデータ間の依存関係を抽出して、論理特性・物理特性を特定して、モデリングするのがエンジニアの仕事だと思う。パラダイムに応じた読み替え。 #hadoopmodeling posted at 20:54:50 .o(実装とか、コードとかのレベルで考えると、手順的になりやすい。こういう問題は抽象レベルのモデルで考える方がいい。MR に限らず、(REST的には) ウェブサービスの設計も同様。手順脳を捨てる必要がある。 #hadoopmodeling posted at 20:59:28 そろそろ終了時間らしい。モバイルオブジェクトと分散RDBMSの復習の回でありました。 #hadoopmodeling posted at 21:01:40
#event 2010/11/19「Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第3回)」<http://atnd.org/events/9098 > : 今回も楽しみ! #hadoopmodeling posted at 23:36:37 ちょっと食事したり寝落ちたりしているうちに告知があって、目覚めたら席が半分埋まってるなんて。あいかわらず、ひどいスピードで埋まってくのね ^^; #hadoopmodeling posted at 23:43:01 #event 2010/11/19「Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第3回)の二次会」<http://atnd.org/events/9099 > : 本会からのリンクに気付かなかった >< #hadoopmodeling posted at 23:48:06
電力最適化の話は、処理コスト最適化の話に関係していて。コスト見積り関数やアルゴリズムに、ストレージ I/O だけでなく、ネットワークデータ流量や CPU活動量などの指標を用いて、それに応じた最適化アルゴリズムが提案されていたりする。 #hadoopmodeling posted at 00:22:54 関係代数のストリーム処理可能な演算子でのパイプライン化や、さらには無限長シーケンス上のタイムウィンドウベースのストリームデータ処理システムのような話も、関連するかもしれない。でも、演算体系は違ってくる。より自由度が求められるのでないかしらん。 #hadoopmodeling posted at 00:23:58 データのローカル性や共起性を考慮したデータ配置は。自律ストレージ辺りの話に使えるものがあるように思える。 #hadoopmodeling posted at 00:25:29 なんにせよ。RDBMS よくわかんなーい → NoSQL、という逃げの論理はだめ。使いこなせまい。RDBMS が面倒を見てくれていたことを、アプリで実現しないとならなくなるから。なぜだめなのか、適していないのか。理性的な理由を以って選ぶべき。 #hadoopmodeling posted at 00:30:26 今のところ。処理単位のデータ入出力に着目した依存関係 (DAG になる) で、問合せ最適化みたいなコストモデルに基づいて、プロセス代数的な非同期/同期実行関係に最適化、という流れが見え隠れしている。 #hadoopmodeling posted at 00:32:02 研究成果は、5~10年程度で実運用に耐える実用化がされて。更に 10~20年程度でコモディティに展開する。特許の問題もあるし、洗練化し、理解され、定着するまでのタイムラグでもある。 #hadoopmodeling posted at 00:38:53 @ashigeru 確実に、条件による場合分けや、パラメータは増えて、複雑にはなるでしょうね。最適化処理自体の計算オーダの問題が出てくるかも。系全体を見ないといけないわけだけど、そこを分散処理でできるかどうか。 #hadoopmodeling posted at 00:40:15 電力というと。規模やターゲットや処理能力は全く異なるけれど、センサネット上でのデータ処理という話もあるんだっけ。これはどこかで繋がるのかしら。さすがに文脈が違い過ぎるかな。 #hadoopmodeling posted at 00:42:45 #reblog 「t: 「Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第二回)」参加メモ」<http://d.hatena.ne.jp/nsiena/20100726/hadoopmodeling > #hadoopmodeling posted at 15:45:27 #reblog 見返してみたら誤字だらけだった。そして適当すぎることを書きすぎてた。うーん……。 #hadoopmodeling posted at 15:45:38
|
last update 06/04 08:59
ツイート検索
Recent
Archives
Friends
Hashtags
Stats・Feed |