nsiena

Siena.

nsiena

ツイートの並び順 : 新→古 | 古→新

Twilog ホーム » @nsiena » Hashtags » #sigmodj

2012年06月03日(日) 1 tweets

ソース取得:

#event 2012/06/09「第13回 先端的データベースと Web技術動向講演会」<http://www.sigmodj.org/regist/conference_informations/2 > : ICDE2012 の報告とか。Hadoop方面は、神林さんが登壇されるのね。 #sigmodj

posted at 00:29:10

2011年10月01日(土) 10 tweets

ソース取得:

それにしても、CrowdDB が人気である。FusionCOMP プロジェクトも負けてはいられない。 #sigmodj

posted at 14:11:47

「Hadoop でストリーム的に到着する大規模データのためのインクリメンタルなデータ処理、か。オンラインよりもバッチ向け。開発した(未公開?) Nova のクラスタが、Hadoop/Pig/Oozie クラスタと連携して処理する構成。」.o(ストリームでバッチ? #sigmodj

posted at 14:25:13

今日は、いつもお会いするような方々が少ないような気がする #sigmodj

posted at 14:34:35

『IBM InfoSphere Stream -大量データの高速処理/実時間処理のための次世代プラットフォーム-』(安江俊明,IBM東京基礎研究所) #sigmodj

posted at 14:55:53

「最初に出たバージョンは去年の 2月頃。今日の話の概要: 1.IBM の big data への取り組みと Streams, 2.InfoSphere Streams の技術概要, 3.Streams の簡単なでも #sigmodj

posted at 14:58:05

「big data の特徴: Variety, Velocity, Volume。多様で高頻度に発生し続ける大量のデータを短時間に分析することで、以前は不可能であった洞察を得ることが可能になる。 #sigmodj

posted at 15:01:36

「スループット小・応答時間長だった DWH に対して、大・長な MapReduce、小・短なストリームコンピューティングという位置づけ。組み合わせることで、大規模なデータマイニングとリアルタイムデータ処理による、リアルタイム分析処理などの先進的な分析へ。 #sigmodj

posted at 15:05:45

「輸送: 車載GPS や混雑具合など用いたリアルタイム交通流管理。 製造: マイクロチップ製造工程の品質管理のための製造監視・制御。 医療: 遠隔患者のモニタリング (スループットは小さくてよいが、医師の仮説検証のトラッキングが可能になった)。 #sigmodj

posted at 15:10:24

「金融: 次世代アルゴリズムトレーディング (BlueGenes による、超低レイテンシ, 高データレート, 多様なデータ形式をすべて満たすフラグシップアプリケーション)。 #sigmodj

posted at 15:12:27

「高速化手段: データ並列, タスク並列, パイプライン並列。 Streams では、Source Adapter, OperatorRepository, Sink Adapter を組み合わせた開発。配置や通信の自動最適化を行えるコンパイラと実行環境を持つ。 #sigmodj

posted at 15:21:58

2010年10月16日(土) 31 tweets

ソース取得:

#event 「先進的データベースとWeb技術動向講演会」<http://www.sigmodj.org/Events/taikai45.html > : 20分遅れくらいで参加中。 #sigmodj

posted at 09:46:14

『文章、浮世絵のデータ分析』: 「文章や絵画などの文化領域のデータ分析の話。文学作品における語の出現傾向を用いた著者の同定などの事例。計算機以前は、何十万文字もの作品を人手で数えていた。 #sigmodj

posted at 09:47:37

人文学分野データベースの課題: A.文章: 電子化しただけのでDBの有用性 (→形態素解析器), 個別に作成されたDBの互換性, 文字・傍注・脚註・注釈などを含めたDB作成上の問題点 #sigmodj

posted at 10:16:25

B.絵画: 色の信頼度, 他 / C.三次元の芸術品: 公開可能性 (複製対策) / D.考古学: DBの相互互換性 (含まれる情報(変数)の差異, 精度, しばしば再測定不能), 大規模DBの作成可能性 (ない?) #sigmodj

posted at 10:17:04

『Mining Networks with Shared Items』: 「PAKDD2010及びCIKM2010に採択された、頂点にアイテム集合が付与された大規模ネットワーク解析手法の紹介 #sigmodj

posted at 10:18:42

「COIN: グラフとアイテム集合を融合・解析するアルゴリズム。ROBIN: COIN の拡張。COIN, ROBIN の生命情報向け応用。COIN の可視化技術。 #sigmodj

posted at 10:28:35

「問題設定: k個以上の商品を共有していて、n本意場の友人関係で繋がっている部分ネットワーク (= 口コミが広がりやすいネットワーク) を列挙。頻出アイテムを見つけるアプローチは、みんなが買う傾向があるものなので、口コミの意義が低い。 #sigmodj

posted at 10:28:44

「ありえるアプローチ: A.頻出アイテム集合列挙→ネットワーク調査: 頻出せずともネットワーク上では購入する密なグループの存在, 頻出アイテム集合の列挙もそれなりに時間がかかる。B.部分ネットワークの列挙→アイテム集合調査: ネットワークの列挙は時間がかかる。 #sigmodj

posted at 10:36:52

@knjhtn 古文書や木簡の話とか。古い漢字の読取り/識別/同一視の個人依存性とか。研究課題・対象当たりの研究者数の少なさとか。聞いてると絶望的な気分になりますね。(^^; #sigmodj

posted at 10:47:23

「提案アプローチ: 深さ優先探索を行なう頻出部分グラフ列挙手法 gSpan を用いて部分ネットワークを列挙。計算量は多いまま。枝刈りしやすいデータ構造を用いて効率化する (共通アイテム集合はグラフの大きさに対して単調減少すること、重複したグラフは不要なこと)。 #sigmodj

posted at 10:54:16

「擬似データによる検証。共著者ネットワーク: サポートが小さい (執筆文献数 <<< 全文献数) が、ネットワークを用いていることでうまく見つけられる。生命情報へ応用。可視化: 極一部にのみ存在する解と、ネットワーク全体を併せた表示。 #sigmodj

posted at 10:58:15

なんだか、会場が暑いなぁ #sigmodj

posted at 11:04:04

「単一の連結部分グラフを抽出する COIN、それを複数に拡張した ROBIN。課題として、ブログ, 特許, SNSなどの、より大規模なデータに適用したい。データ募集中。全解探索は諦めるか並列化。数値などのアイテム以外を扱う拡張。 #sigmodj

posted at 11:10:51

15分ほど休憩 #sigmodj

posted at 11:17:23

『プライバシ保護を考慮したパーソナル情報の流通と活用』: 「購買履歴や位置情報などは利便性が大きい反面、慎重な扱いが必要。位置情報と医療情報を例に、このようなパーソナルな情報の安全な流通とサービスへの活用を目指す技術について紹介。 #sigmodj

posted at 11:33:20

「自分の研究成果よりも、概論的な話。日本では、あまり扱っている人が多くないため。身にまとわり付くように多様な個人情報が存在。組み合わせることで知識を発見できる。一方、他人に見せたくないものでもある。 #sigmodj

posted at 11:39:49

「個人情報データアナリティクス: 匿名化データの開示,DB問合せに対する安全な出力,プライバシ保護データマイニング。個人情報: 直接識別子,間接識別子 (組合せで識別性が高まる),センシティブ属性 (識別性は低いが知られたくない,大量にあれば識別可能性も高い)。 #sigmodj

posted at 11:44:38

「プライバシ保護データ解析のモデル。データフローにおけるデータ保護境界で、個人情報を直接読み取れないように変換。データをデータ解析者に渡す前 (PPDP)、解析結果を閲覧者に渡す前 (OP)、データマイニングでデータを統合する前 (PPDM)。 #sigmodj

posted at 11:52:59

「匿名化を達成するために開示前にデータ編集: 属性ごと削除する非開示, 値を曖昧にする global recoding, 一部のデータのみ削除する local suppression。 #sigmodj

posted at 11:59:23

「匿名化を達成するために開示前にデータ編集: 属性ごと削除する非開示, 値を曖昧にする global recoding, 一部のデータのみ削除する local suppression。 #sigmodj

posted at 11:59:23

「k-匿名性: 守るべき属性情報の値の組合せが同じレコードが少なくとも k個ある状態。k人以上には絞り込めない。 ※法律上は二人以下に絞り込めなければ個人情報とは呼ばない。最適な k-匿名を達成するには NP完全。 #sigmodj

posted at 12:00:14

「l-多様性: k-匿名化データの各ブロックのセンシティブ属性の値の組合せを l種類以上である状態。ブロック内でセンシティブ属性の値を多様化することで特定されにくくする。 #sigmodj

posted at 12:02:15

「課題。計算量: データサイズが大きいほど匿名化は容易 (小さいほど困難) だが、最適な匿名化はNP完全 → 巨大データに対する高速実行。匿名性: 属性数が多いほど組合せは爆発して匿名化が困難で、識別力の強い属性が多いと匿名化困難。半・非構造化データの匿名化。 #sigmodj

posted at 12:09:15

「位置情報の匿名化: 位置を点でなくメッシュで表現。メッシュサイズを k-匿名を達成するように設定。単純メッシュ (疎密を無視), 適応的メッシュ (望む分割を得られない可能性), POI表現 (人手で定義)。 #sigmodj

posted at 12:13:55

.o(メッシュでは、粗な領域のメッシュが大きくなりすぎてしまったりして困ることがありそう。ところで、人の移動に応じて、メッシュは動的に変化させるのかしら。それでは扱いにくそう。そうでないなら、疎になった瞬間があると特定性が高くなってしまう。 #sigmodj

posted at 12:16:58

「ゲノム情報: 強い識別子∧センシティブ属性。テイラーメイド医療の実現に欠かせないが取扱が難しい。疾患遺伝子の知識や創薬過程の機密保持など知的財産にも関わる。 #sigmodj

posted at 12:27:01

「課題。シーケンシャルなプライバシ保護: 一度開示されたデータは網非公開にできない, 少しずつ変更・追加される秘密DBへの問合せに対する保護の実現。クラウド上のデータ解析とプライバシ: クラウド上にデータを置いて活用したいが、そのホストにデータを知られたくない。 #sigmodj

posted at 12:40:18

おひるやすみ #sigmodj

posted at 12:42:53

午後セッション開始 #sigmodj

posted at 14:00:43

でも睡眠不足でおひるをたべてつらい。ので、メモは取れないかも。 #sigmodj

posted at 14:01:20

しゅーりょー。最後のアナウンス。少し話をしたら、移動して時間をつぶそう。 #sigmodj

posted at 17:01:47

2010年10月15日(金) 1 tweets

ソース取得:

@nsiena #event ハッシュタグは #sigmodj かしら #dbsj かしら。はたまた #adbweb とかかしら。 #sigmodj 辺りが順当かしらん。

posted at 22:04:37

2010年06月12日(土) 70 tweets

ソース取得:

#event 「第7回 先端的データベースとWeb技術動向講演会」参加中 #sigmodj

posted at 10:19:24

『成せば成る!』(三島健,10:00-11:00) : VLDB2009 に採択 'Pangea: An Eager Database Replication Middleware guaranteeing Snapshot Isolation with ... #sigmodj

posted at 10:22:16

「DBMSの課題と提案: (1) 低コストで拡張性、高可用性の向上が難しい。クラスタ構成での一貫性維持のため DBMS に機能追加 = 高コスト → 上位ミドルウェアで実装。一貫性と並列実効性語のバランスが課題。 #sigmodj

posted at 10:26:32

「(2) 無停止のバージョンアップが難しい。従来は計画停止。新版のバグや既存アプリとの親和性の問題も。 → 新旧両方を同クラスタ内に同居させる。JDBC などの C/S I/F しか使わないのが課題。 #sigmodj

posted at 10:29:17

「Serializable でなく、Oracle, PostgreSQL で最高レベルである Snapshot Isolation を前提に。実用性重視。 #sigmodj

posted at 10:35:11

lazy repl. をミドルウェアだけで実装するための問題点: サーバ間 I/F がなかった, スレーブの更新までの遅延, 更新トランザクションのリードはマスタでの実行が必要。→ eaget repl. を対象とした。 #sigmodj

posted at 10:38:34

「eager repl. での課題: 更新競合が発生するので、更新命令の実行順序の保存が必要。論文のポイント: (1) Global Snapshot Isolation (GSI), Pangea, (3) TPC-Wベンチ実験 #sigmodj

posted at 10:41:38

「GSI: 仮想サーバが SIを保証, レプリカ間で一貫性維持, サーバ間をまたぐデッドロックを防ぐ。形式的定義と議論の詳細は論文を参照。 #sigmodj

posted at 10:47:23

「直観的説明: (a) 全サーバで同じスナップショットを作成 ∧ (b) 競合する更新命令を全サーバで同じ順次で実行 ⇒ 一貫性維持・デッドロック回避可能 #sigmodj

posted at 10:47:30

「Pangea: ミドルウェア。アルゴリズム1: 全サーバでスナップショット作成が完了するまで、ミドルウェアでアプリの要求を一時保留しておく。 #sigmodj

posted at 10:52:16

「従来は表単位でロックされ非効率。アルゴリズム2: 競合するものをシーケンシャルに、競合しないものを並列に実行できるように、ミドルウェアから各サーバへの実行要求。 #sigmodj

posted at 10:55:10

「DBMS は無改造で、実装が簡単。既存 eager repl. ミドルウェアとの違い: サーバ間をまたがるデッドロックを回避, タプルレベルの並行実行制御, SI を保証。 #sigmodj

posted at 11:02:50

「既存 lazy repl. ミドルウェアおとの違い: レプリカ間同期が軽い, 更新トランザクションのリードも書くサーバで実行でき、ミドルウェアがボトルネックになりにくい。 #sigmodj

posted at 11:02:55

「査読結果: (1) ベンチマーク評価を要求, (2) 英語の質の改善, (3) 関連研究の説明の間違い・不足, (4) ミドルウェアが単一障害点 (→HA校正で回避可), #sigmodj

posted at 11:03:53

(5) (lazyを前提とした?) 一貫性は問題にならない (→既存研究との違いを比較・強調), (6) first-committer-wins rule はうまくいかないだろう (→実 RDBMS も同様) #sigmodj

posted at 11:03:59

『Nb-GCLOCK: A Non-blocking Buffer Management based on the Generalized CLOCL』(油井誠, 11:15-12:15) : ICDE2010採択 #sigmodj

posted at 11:22:46

「CPUはメニーコア時代。Niagara T2: 8core x 8。Azul Vega3: 54 core x 16。オープンソースRDBMSはCPUスケーラビリティの問題に直面。過去の研究によると、バッファ管理モジュールの同期処理がボトルネック。 #sigmodj

posted at 11:29:34

「従来手法: ディスクI/Oが減るが、ロックが競合。提案手法: ロック粒度を 1CPU命令レベルにまで下げた。ディスク I/O は少し増えるが、ロックは競合しない。 #sigmodj

posted at 11:32:12

「バッファ管理をノンブロッキング同期で。1. ロックフリーのハッシュテーブルを採用, 2. キャッシュミス時のロックを除去, 3. ハッシュ表と GCLOCK の整合性維持, 4. ディスク I/O でのロックを除去。 #sigmodj

posted at 11:34:15

「GCLOCK。循環バッファでバッファフレームごとに参照数を記録して置換ページを管理。バッファ管理の状態遷移機械を設計。一貫状態を保つため、DFA ベースで。 #sigmodj

posted at 11:39:49

「バッファフレームへのページ読み込みは楽観的 I/Oで。冗長なディスク I/I を許すのは、これまでの常識と異なるところ。 #sigmodj

posted at 11:39:54

「実験。既存手法では 20%程度の CPU使用率 → 95% 以上に。設定条件下では、少なくとも64プロセッサまではほぼ線形に性能向上。Apache Derby での TCP-C では、バッファ管理モジュールのスループットが B+木のルートページのラッチで低下。 #sigmodj

posted at 11:44:56

「少し前に、遅延同期バッチ処理とプリフェッチでバッファヒット時のロック競合を削減する Bp-Wrapper が提案されてしまった。採録受験にされないように頑張って実装・比較。 #sigmodj

posted at 11:47:18

「採択に至る道程。分野の嗜好性、prepared mind、他分野からの知識獲得、市場動向 → 発想の転換: バッファ管理の着眼点はバッファヒット率向上のものばかり! → 提案 #sigmodj

posted at 11:50:57

「ICDE2009 では不採録。弱点の指摘や良い評価、丁寧なコメントをもらった。査読結果だけが問題の全てとは限らないことに注意。ICDE2010 で採択。査読内容の誤りは、そう読ませてしまう書き方に問題ありと考え、反論よりも補強・訂正。 #sigmodj

posted at 11:57:22

「執筆に当たって注意した点: 否定的査読者の想定して参考文献や評価実験を。有効範囲や限界を明確に。関連する著名グループの論文を防衛的に引用。攻撃材料になりそうな点は参照して言及しておく。など。 #sigmodj

posted at 12:01:03

『DEIMフォーラム2010 の優秀論文賞、最優秀論文賞の表彰式』(13:30-13:45) #sigmodj

posted at 13:30:04

DEIMフォーラム2010 の受賞論文 <<http://db-event.jpn.org/deim2010/award.html > #sigmodj

posted at 13:39:13

「SIGMOD, VLDB, ICDE が DB 三大会議。投稿 523本のうち、採択率 13% (短編 21%)。日本人筆頭は 3本。outstanding reviewer/chair award が導入された。 #sigmodj

posted at 13:49:46

「Social Networks and Personal Information は 5.3% で厳しい。軽いテーマだから? 一方、Temporal, Spatianl, Multimedia Data は 25.5%。 #sigmodj

posted at 13:52:50

「地域/組織/論文タイトル出現の傾向。著者ランキング: フル4件 Xuemin Lin。短編など混ぜて 3件は 12名。 #sigmodj

posted at 13:56:43

「キーノート: 大規模データウェアハウシング (Richard Winter, Pekka Kostamaa), 今後の50年 (Jeffrey F. Naughton), クラウド (Donald Kossmann) #sigmodj

posted at 13:58:24

「『Large Scale Data Warehousing: Trends and Observations』: トピックは、大規模データ, 複雑さ, リアルタイム分析, 戦略上の効果を持つデータウェアハウジング, データベース内処理。 #sigmodj

posted at 14:00:42

「統合によるスキーマの複雑化。それを受け、問合せ・分析要求の複雑化。 #sigmodj

posted at 14:10:56

「複雑さの尺度: データ量 (25TB+), 同時実行問合せ数 (中), ワークロードの複雑さ (バッチレポーティング), 問合せ量 (KB's), 問合せの複雑さ (単純スター状) , スキーマの洗練度合い (多数・統合スター状/正規化) #sigmodj

posted at 14:11:03

「操作の決定の加速: データ遅延 →分析遅延 →決定遅延。早期化により機会獲得。リアルタイム分析により, 短期的戦略判断にも利用。処理は、より継続定期更新やイベント駆動の割合が増えて行く。 #sigmodj

posted at 14:13:49

「『DBMS: Lessons from the First 50 Years, Speculations for the Next 50』: DBMS研究から得られたもの, 今出はできないだろうが面白かったもの, 直面している危機、について。 #sigmodj

posted at 14:18:52

「かつては、ファイル依存プログラミング。部門間どころかアプリ間での共有すら考えられなかった。→ 一般化プログラミング。スキーマと DML のアイデアへ。データ更新の正常性・一貫性の問題 → ロギングのアイデア。 #sigmodj

posted at 14:23:30

「これが 50年前の話で、1.企業の関心, 2.共通のデータ管理に関する課題, 3.魅力的な問題。今日、これが再びそのまま課題とされている。 #sigmodj

posted at 14:24:54

「DBコミュニティの抱える問題: 多数の論文を書かねばならないプレッシャー, 非常に低い採択率, 質の低い査読。問題の在処は、研究者にあるとは思えない。当時よりもより研究者らしい。環境と奨励されてきた慣習を見直す必要があるのでは。 #sigmodj

posted at 14:26:32

「'次のビッグアイデアは新しいデータモデルでなく、新しいコミュニティモデル'。定期的に三つのポイントを再確認し、モチベーティブな環境を。 #sigmodj

posted at 14:42:03

「outstanding reviewer award の導入について。査読の質の確保が目的。著者による査読結果に対する満足度で採点する方式。 #sigmodj

posted at 14:44:47

「『How is new in the Cloud?』: データの力。多い程よい, あらゆる形でいたるところから来る, 本当の価値は後で発見されることが多い, 組織内では所有者はいない。サービスはデータを利益化する。 #sigmodj

posted at 14:46:46

「クラウドコンピューティングは有望。コスト: HW/SWへの従量課金, 負荷に応じた資源配置, アウトソーシング, 故障予防・対応。市場までの時間の短縮。 #sigmodj

posted at 14:51:16

訂正: 「コストは可変ではなく予測不能と捉えるのでなく、従量課金とのトレードオフで考える。 #sigmodj

posted at 14:51:58

「ゲームの変化。OLTP: KVS vs DBMS: 仮想的には無限にスケールアウト可能, 対故障性。仮想かによる資源利用の透明化。100k台のマシンに現実性あり。 #sigmodj

posted at 14:53:37

「ウェブの多層システムを参照アーキテクチャとして。既存 DBスタックをクラウドに写像できるか, ストア層をどう実装するか, 適切な一貫性モデルは何か, プログラミングモデルは, キャッシュはすべきか, など。 #sigmodj

posted at 14:55:42

「ストアの選択肢: 古典的 (Amazon EBS 等), KVS (Amazon S3 等), ClockScan [VLDB2009]、など。ClockScan の特徴: 高いスループット, 予測不可能なワークロードに応答時間を保証, 書込みの単調性 #sigmodj

posted at 15:01:19

「一貫性への取り組み: クライアントサイド一貫性モデルや新しいトランザクションモデルなどの研究。MS Azure はトランザクションデータサイズを制限した。一貫性レベルや一貫性・コストのトレードオフの研究 (→コスト最適化という研究課題へ)。開発者の養育も重要。 #sigmodj

posted at 15:06:45

「クラウドのファンと懐疑論者がいる。研究者はトレードオフを学ぶ。投資家らの賭け。個人的には二途を追うことはできないという意見。 #sigmodj

posted at 15:09:12

『ICDE2010参加報告 (2)』(江田 毅晴, 15:20-17:00) : 続きと Best Paper Award, Best Student Paper Award など。 #sigmodj

posted at 15:23:26

「バンケットトーク。『From Crossing Chasms to Climbling into Clouds』(キャズムを渡ってクラウドに登る)。ICDE は理論と実践の橋渡しをするために始めた。 #sigmodj

posted at 15:26:44

「TSS (1961-1968) [問合せ言語不在], C/S (1975-), [操作と管理のコスト] PC向けDBMS (1986-) [表計算ソフトに敗北], クラウドコンピューティング [データと計算をクラウド側に置き、データ共有の問題を解決]。 #sigmodj

posted at 15:28:49

「経済と技術。技術は経済によって受け入れられ普及するもので、SWの開発・改良によってではない。ユーザにもたらす価値で決まる。情報(SW) は、複製され、多く使われるほど価値が増す。 #sigmodj

posted at 15:30:57

「Best Paper:『TASM: Top-k Approximate Subtree Matching』: 「古典的問題へのエレガントで包括的な解放を分かりやすく提供」したことを評価。 #sigmodj

posted at 15:32:28

「研究課題: DBLP の XMLデータ (28Mノード,531MB) の部分木と問合せXML断片との類似度 (木編集距離) によるランキング。部分木の大きさと数で計算量が決まる。 #sigmodj

posted at 15:38:38

「TASM-Dynamic: 動的計画法による解法で、空間量 O(mn)。DB規模では適用不可能。巨大文書までスケールし、省メモリで動作し、部分木を正しくランキングする解法を提案。 #sigmodj

posted at 15:38:44

「定理: 問合せ Q に対して上位 k件を得る場合、考慮すべき部分木 Ti の大きさの上限は、|Ti| <= 2|Q| + k。→ 文書独立に部分木の大きさを決定できる! #sigmodj

posted at 15:44:52

「ノード数が基準を越えるまで追加し続ける simple pruning アプローチでは最悪の場合の空間使用量が O(n) なので適用不可。→ 木の prefix を保存する prefix リングバッファを用い、後続ノードに基づく枝狩り。 #sigmodj

posted at 15:51:39

「Best Student Paper:『USHER: Improving Data Quality with Dynamic Forms』: 「重要な新しい未解決問題に対して機械学習に基づいた技術を提案」であることを評価。 #sigmodj

posted at 16:02:03

「USHER: 確率モデルを用いて投入済みデータを学習し、投入データの質を効率よく向上。情報理論に基づいたフォーム設計: グリーディ情報得失。投入時の動的なフォーム適応: 携帯端末で 1質問ずつ投入する時に最適。投入後の質問確認: エラー率の高い質問を再質問, #sigmodj

posted at 16:06:33

「グリーディ情報得失戦略を用いる。条件付きエントロピーで計算した不確さの高い質問をできるだけ早く減らすことで、それ以降の質問の値を推定しやすくできる。→ 文脈付き誤りらしさを測って、間違っていそうな質問だけ再確認することで、2回投入よりも回答コストを下げる。 #sigmodj

posted at 16:15:01

「評価: 世論調査 15問 1113人。問診票 9問 1650人。ランダムに比べて、途中で入力を中断した時の精度が向上。エラー予測精度は、15問中 3問の再質問で 8割のエラーをカバー。 #sigmodj

posted at 16:20:23

「議論。新しい問題が考えられる。質問項目の提示するタイミングや、提示の度合の任意/強制、コンテキストを踏まえたインタフェースなど。 #sigmodj

posted at 16:24:51

「ICDE2010 のまとめ・感想。DBコミュニティに対する不安の可視化: 3点+コミュニティの活性化。DB コミュニティの多様性を再確認: 新しい問題と古い問題の両方を評価。参加して研究者としての幅を広げられた。 #sigmodj

posted at 16:26:31

「日本も先端技術に触れる機会画が増加。有志による VLDB,SIGMOD,ICDE勉強会。SIGMOD2010 キーノートや WWW2010 パネルのビデオ公開。国際会議報告会は何を目的にすべきか: 評価の高い論文, バンケットトークや裏話など会場のみの情報 #sigmodj

posted at 16:29:09

#event 2011/04/11-16「ICDE2011」<http://www.icde2011.org/ > : Hannover, Germany。ICDE2012 は Washington。 #sigmodj

posted at 16:31:02

「全論文をチェックする ICDE2010勉強会 が 6/20 にお茶大、京大田中研、(筑波大?) で開催。ポリコムで繋ぐので会場は広くない。ust 中継も検討中。論文紹介者も募集中。 #sigmodj

posted at 16:42:08

閉会。おもしろかった。つかれた。 #sigmodj

posted at 16:42:35

#index 「第7回 先端的データベースとWeb技術動向講演会 参加メモ」<http://twilog.org/nsiena/date-100612/asc > #sigmodj

posted at 16:42:49

last update 06/04 08:59

ツイート検索

«2012年6月 
    123
45678910
11121314151617
18192021222324
252627282930 

Recent

Archives

» more...

Friends

» 全てのFriendsを見る...

Hashtags

» 全てのHashtagsを見る...

Stats・Feed