Metaが公開した言語モデル「LLaMA🦙」から派生(微調整)したモデル一覧
①Alpaca🦙(アルパカ)
②Vicuna🦙(ビクーニャ)
③Guanaco🦙(グアナコ)
④FreedomGPT🤪
⑤GPT4All🙂
⑥ChatDoctor🏥(ドクター)
⑦OpenFlamingo🦩(フラミンゴ)
⑧Koala🐨(コアラ)
⑨Baize🐲(中国の民間伝承による架空の生物らしい)
posted at 18:45:13
ツイートの記録を停止しています
このアカウントはTwitter APIの仕様変更の影響でツイートの記録を停止しています。
記録を再開するには、Twilogにログインしてください。
Stats | Twitter歴 3,717日(2014/01/25より) |
ツイート数 42,842(11.5件/日) |
表示するツイート :
Metaが公開した言語モデル「LLaMA🦙」から派生(微調整)したモデル一覧
①Alpaca🦙(アルパカ)
②Vicuna🦙(ビクーニャ)
③Guanaco🦙(グアナコ)
④FreedomGPT🤪
⑤GPT4All🙂
⑥ChatDoctor🏥(ドクター)
⑦OpenFlamingo🦩(フラミンゴ)
⑧Koala🐨(コアラ)
⑨Baize🐲(中国の民間伝承による架空の生物らしい)
posted at 18:45:13
二次元イラスト向けの画像生成AI「にじジャーニー」のバージョン5(nijijourney v5)が公開されたらしい
https://twitter.com/nijijourney/status/1643146461675401216?t=79tFZWuZtsVQtwpfchBIaA&s=19…
posted at 16:09:18
カリフォルニア大学バークレー校のAI研究所「BAIR」が130億パラメータの新しい対話モデル「Koala🐨」を発表!
Metaの言語モデル「LLaMA」を微調整したモデル。データは量より質を重視。ChatGPTに近いクオリティで、LLaMAの微調整モデル「Alpaca🦙」よりも好まれることが多い
https://twitter.com/berkeley_ai/status/1643053599390593024?t=Ejy1xB_d2gab4CaXHx45NA&s=19…
posted at 15:10:10
著者による紹介ツイート
https://twitter.com/sleepinyourhat/status/1642614846796734464?s=20…
posted at 20:23:50
@tsatie 研究者だけじゃなくて、幅広い読者を対象にしているそうなので。この数ヶ月でジャーナリストや支持者や議員や学者など非常に多くの人々が大規模な言語モデルに注目しましたが、この技術を理解し始めたばかりだと見落としがちな部分があり、そこを説明してるようです
posted at 20:08:45
⑦LLMは、制作者の価値観やウェブテキストにエンコードされた価値観を表現する必要はない
⑧LLMとの短いやり取りは、しばしば誤解を招く
posted at 19:46:35
③巨大言語モデル(LLM)はしばしば外の世界の表現を学習し使用してるように見える
④LLMの振る舞いを制御するための信頼できる技術はない
⑤専門家はまだLLMの内部構造を解釈できていない
⑥あるタスクにおける人間の性能は、LLMの性能の上界にならない(多くのタスクで人間の性能を上回る可能性がある)
posted at 19:09:47
巨大言語モデル(GPT-3、PaLM、LLaMA、GPT-4など)の流行を受け、ニューヨーク大とスタートアップ「Anthropic」の研究者Sam Bowman先生が潜在的に驚くべき主張を幅広い読者へ8つ紹介
①言語技術の革新無しに投資の増加で予測通り性能が改善
②特定能力は予測不能で出現する傾向
https://cims.nyu.edu/~sbowman/eightthings.pdf… https://pic.twitter.com/qV9eTFY095
posted at 18:41:31
@rinatie_ceo 最近は叩かれるリスクを減らすために、目立たないようにコソコソとつぶやいています🫥
posted at 13:53:16
金融情報サービス会社「Bloomberg」が金融に強い汎用言語モデルを目標に、506億パラメータの「BloombergGPT」を5690億トークンで学習した(BLOOMスタイル)
金融テキスト(約3630億トークン)と一般テキスト(約3450億トークン)からなるデータセットを作成(合計約7000億トークン)
https://arxiv.org/abs/2303.17564
posted at 14:06:06
オープンソースで最大130億パラメータの言語モデル「Cerebras-GPT」が発表された。chinchillaのスケーリング則を参考に挑戦。7つのサイズがある(パラメータ数: 111M、256M、590M、1.3B、2.7B、6.7B、13B)。オープンなデータセットを用いてスケーリング則を導出。非GPUで実行
https://twitter.com/CerebrasSystems/status/1640725880711569408?s=20…
posted at 08:35:39
Flamingo🦩
https://twitter.com/jaguring1/status/1522953668768591872?s=20…
posted at 07:23:37
作者による紹介ツイート↓
https://twitter.com/anas_awadalla/status/1640766789977251840?s=20…
posted at 06:11:27
90億パラメータの視覚&言語モデル「OpenFlamingo🦩」が発表された(学習と評価のためのフレームワークも)
Metaが発表した70億パラメータの言語モデル「LLaMA🦙」に基づいて構築。
約1年前にDeepMindが発表した最大800億パラメータのモデル「Flamingo」の複製
目標はGPT-4
https://laion.ai/blog/open-flamingo/…
posted at 05:52:17
ChatGPT・GPT-4・ChatGPTプラグインの全てで使われてる「呪文」、そして2022年一番記憶に残った言語モデルの論文は @Matsuo_Lab 松尾研の小島君と岩沢さん @yusuke_iwasawa_ さんが見つけました。私も論文を手伝いましたが素晴らしい発見でした。
なぜこれを日本人が見つけられたか?...(次) https://twitter.com/jaguring1/status/1639814766561751040…
Retweeted by 小猫遊りょう(たかにゃし・りょう)
retweeted at 11:45:28
今回の呪文の論文の共著者の松尾豊さん「ChatGPTの内部では、質問のされ方に応じてデータの処理方法が変化しているのだろう」
「人間が創造性を発揮する時も、脳の中でかなり近いことをやってるのではないか。それが今ChatGPTの振る舞いで見えてるのだとすれば、これはすごく興味深いことが起きてる」
posted at 11:28:50
小島さん「『step by step』の言葉がスイッチのように働くことで、大規模言語モデルの挙動が切り替わるのかもしれない」
「大規模言語モデルの内部は『多重人格』だといえるかもしれない」
posted at 11:24:42
ChatGPTを賢くする呪文
「Let's think step by step(一歩ずつ考えよう)」の話が書かれている
この呪文の発見者でもある小島武さん
「大規模言語モデルの中には直感的に答える思考法と、論理的な思考法の双方が獲得されているのではないか」
https://www.nikkei.com/article/DGXZQOUC22BVO0S3A320C2000000/…
posted at 11:21:21
でもOpenAIは完全に最初の戦略を変えてきたなぁ(Open性に関して)。投じてる計算回数とパラメータ数とトークン数すらも非公開になるとは・・・人類が行なう考察の不確実性が高まった
posted at 10:27:34
今のところ、順調に流れに乗ってる気がする https://twitter.com/jaguring1/status/1272144870631600128…
posted at 10:10:44
グーグルやDeepMindがPaLMやChinchillaを発表してから約1年が経っている。その間、グーグルとDeepMindはどんなAIの学習に最大の計算回数を投じているのか、そして、それはいつ発表されるのか。時間が経てば立つほど計算回数が増えていく
posted at 07:34:19
OpenAIが「ChatGPT・プラグイン」を発表。これによって、ChatGPTが様々なツールを使用できるようになったらしい。最新情報を検索できたり、数学を行なったりなどの弱点が緩和し、さらに強力なAIシステムに
ChatGPT・プラグイン
https://openai.com/blog/chatgpt-plugins…
posted at 06:01:27
@kyo_takano その「1994年定義に従った評価結果」をもとに、著者たちは「知能の多くの特徴を示すエビデンス」として報告しているので、要約としては正しい気がします(上の英文参照)。そして、要約を超えた科学的な議論としては、Kyoさんは「これはエビデンスではない」と考えているわけですよね?
posted at 04:43:08
@kyo_takano 上のツイートで僕が「証拠」と書いた部分が、著者たちのニュアンスをうまく反映できていないと感じるなら「根拠」と読み変えていただいても良いですし、原文の通りエビデンスとしても良いと思います。
posted at 04:21:57
@kyo_takano 著者たちは「1994年の定義に従って、知能の多くの特徴を示すという証拠について報告」と書いてますよね?(上の英文参照)。僕のもとのツイートは「知能の多くの特徴を示している証拠を報告(1994年の知能の定義に従っている)」と書いており、要約として正確な気がします。
posted at 03:57:42
@kyo_takano p.4
“In this paper, we report on evidence that a new LLM developed by OpenAI, which is an early and non-multimodal version of GPT-4 [Ope23], exhibits many traits of intelligence, according to the 1994 definition.”
posted at 03:30:31
@kyo_takano 著者がどんな意味を込めて「エビデンス」という語を用いたかは確かに不確実性があると思います(「証拠」「根拠」など、日本語訳はどっちが適切か)。『これは強くて「根拠」くらいの意味合い』というKyoさんの解釈もありうると感じます。「エビデンスを報告」と記述すれば, 要約としては正しいですかね
posted at 02:49:43
@kyo_takano ありがとうございます。前者(要約として正しさかどうか)において、一応、僕が「証拠」と書いた理由は、p.4に「エビデンス」と書かれていたからです。なので,前者も正しいように感じていますが、どうでしょうか? https://pic.twitter.com/GGsMFcxSC0
posted at 02:03:26
@kyo_takano この論文の「要約」としては「知能の多くの特徴を示している証拠を報告(1994年定義に従っている)」で正しく、一方で、「それが実際に証拠になっているかどうか?」という要約を超えた科学的な議論においては、「まったく証拠にはなっていない」とKyoさんは考えている、という理解で良いですかね?
posted at 01:32:23
@kyo_takano なので,表現を変えるなら、「1994年の定義を採用している」とか、「いくつかの指標はまだ満たしていないものの、多くの特徴を示す証拠を報告」のようにするのが良いですかね?
posted at 00:31:32
@kyo_takano この文脈で「1994年の定義に従ってる」という言葉の使い方が僕とKyoさんで違うかもと思いました。僕は「知能の定義が沢山あるなかで、1994年の定義を用いてる」という意味で使い、Kyoさんはもしかしたら「1994年の定義を満たす対象全体からなる集まりに属してる」という意味で用いている気がしました
posted at 00:28:22
@kyo_takano ありがとうございます。僕のツイートでは「知能の多くの特徴を示している証拠を報告(1994年の定義に従ってる)」のように書き、もし仮に僕が「多くの特徴」の部分を「全ての特徴」と記述した場合はKyoさんの指摘は的を得てると思いますが、「多くの特徴」と記述してるため特に誤りはないと思いました
posted at 00:27:52
@kyo_takano P.92
“In this paper, we have used the 1994 definition of intelligence by a group of psychologists [Got97] as a guiding framework to explore GPT-4’s artificial intelligence.”
posted at 21:20:07
@kyo_takano p.8
“We execute the approach outlined above on a few selected topics that roughly cover the different aptitudes given in the 1994 definition of intelligence, a very general mental capability”
posted at 21:19:49
@kyo_takano 別に不正確ではないのでは?(p.8とp.92を参照)。kyoさんならどのようにこの部分(”1994 definition of intelligence”の文字列が入った部分 )の説明をしますか?参考までに教えていただけるとありがたいです。 https://pic.twitter.com/DmNwRldA5Q
posted at 21:14:02
「OpenAIが開発した最新のモデルGPT-4は、前例のない規模の計算とデータを用いて学習された」と書かれている。前例がない、ということはやはりPaLM(学習に投じた計算回数2.56×10^24回)以上かな?
posted at 18:53:07
純粋に言語モデルであるにもかかわらず、このGPT-4の初期バージョンは、抽象化、理解、視覚、コーディング、数学、医学、法律、人間の動機や感情の理解など、さまざまな領域やタスクで驚くべき能力を示している、とのこと。
posted at 18:47:33
マイクロソフトが「GPT-4は汎用知能を獲得した」と主張。AGI(汎用人工知能)
へ大きな一歩。この論文では、初期のGPT-4の非マルチモーダル版(言語モデル)が、知能の多くの特徴を示している証拠を報告(1994年に52人の心理学者が行なった知能の定義に従っている)
https://arxiv.org/abs/2303.12712
posted at 18:43:16
医療分野タスクでGPT-4の性能を評価した論文。GPT-3.5とグーグルの5400億パラメータのFlan-PaLMと比較。公式の試験問題「USMLE」でGPT-3.5を30ポイント以上も向上。合格基準から20ポイント以上も上回り、専門家に近い水準。最近グーグルはMed-PaLM 2を発表し、比較が気になる
https://www.microsoft.com/en-us/research/publication/capabilities-of-gpt-4-on-medical-challenge-problems/… https://pic.twitter.com/2vFssHNFmn
posted at 16:47:39
公式による紹介ツイート
https://twitter.com/github/status/1638541174611779584?s=20…
posted at 07:37:00
さっそくGPT-4を部分的に活用したソフトウェア開発へ。AIペアプログラマーが強力に。人類の進歩が加速しそう。チャット機能や音声インターフェイスの導入。ドキュメントに関する回答。プルリクエストの生成。ユニットテストの生成。バグの修正など、機能を大幅に強化
https://github.blog/2023-03-22-github-copilot-x-the-ai-powered-developer-experience/…
posted at 06:48:17
マイクロソフトがBingに画像生成機能を組み込んだ「Bing Image Creator」を発表!OpenAIの画像生成AI「DALL-E」の進歩したバージョンでBingを強化。現在は英語のみをサポート。他の言語へ拡張させていく予定とのこと。マイクロソフトが次の覇権を目指して勢いを加速させている
https://blogs.microsoft.com/blog/2023/03/21/create-images-with-your-words-bing-image-creator-comes-to-the-new-bing/…
posted at 04:51:59
誤字脱字
×オープンラセンス作品
⚪︎オープンライセンス作品
posted at 04:19:10
Adobeが生成AIサービス「Firefly」を発表!
まず「テキストから画像を生成するAI」と「テキストの見た目を変えるAI」を提供。Adobe Stockのデータセット、オープンラセンス作品、著作権が切れたパブリックドメイン作品で学習して、権利関係に配慮。様々な生成AIを追加予定
https://firefly.adobe.com/ https://pic.twitter.com/V1L0yDW1cx
posted at 04:06:05
グーグルがついに対話AI「Bard」を公開!
Bardは最新情報にも対応可能で、グーグル検索で情報を確認しやすいように工夫。言語モデル「LaMDA」の軽量版かつ最適化されたバージョンを利用している。まずは米国と英国から公開。その後、他の国や言語へ拡大していくとのこと
https://blog.google/technology/ai/try-bard/…
posted at 02:23:36
@Tarpon_red2 計算回数もほぼ予想通りのタイミングでGPT-4レベルのものが出てきたので,おそらく順調にきてると思います。2005年のカーツワイル の概算とほぼ一致すると思います。
https://twitter.com/jaguring1/status/1554758279020318721?s=20…
posted at 19:47:12
AIシステムの学習に使われた計算回数の推移。縦軸は一つ目盛りが変わるごとに100倍ずつされていることに注意(つまり通常のグラフではなく、片対数グラフ)。このグラフ上で直線であれば、指数関数的な変化が起こってきたと言える
https://ourworldindata.org/brief-history-of-ai… https://pic.twitter.com/JePg1tqBXV
posted at 18:55:14
2018年6月にGPT(約1億パラメータ)が発表され、その記事でより多くの計算とデータを使用すれば大きな改善の余地があると指摘された。当時、事前学習は8GPUで約1ヶ月で(総計算回数は8.3×10^19回程度)、学習データは数千冊の本(約5GB)だった。今は総計算回数10^25回程度の戦いへ
https://twitter.com/jaguring1/status/1006260790976864257?s=20…
posted at 18:39:42
中国企業「HUAWEI(ファーウェイ)」が1.085兆パラメータの言語モデル「PanGu-Σ」を発表!(疎なモデル)
ゼロショットの設定で様々な中国語タスクで最高性能。現在、1兆パラメータを超えるモデル(疎なモデル)はSwitch-C、GLaM、 MoE-1.1T、悟道 2.0、M6-10Tなどがある
https://arxiv.org/abs/2303.10845 https://pic.twitter.com/aDIxMQlK1n
posted at 11:23:10
テキストから動画を生成するAIが盛り上がっている🔥 https://twitter.com/alfredplpl/status/1637324162476933121…
posted at 23:51:08
生成AI開発を行なうスタートアップ「Runway」が、テキストや画像や動画を使って新しい動画を生成できるマルチモーダルAIシステム「Gen-2」を発表(テキストからビデオ生成。テキスト+画像から動画生成。画像から動画生成、など様々なモードが紹介されている) https://twitter.com/runwayml/status/1637800500459458562…
posted at 23:37:51
1ヶ月前、ChatGPTの話題で「日本も数百億円あれば同じようなものは作れる」って話を見たけど、すぐに圧倒的なGPT-4が登場し(予想:総計算回数10^25回前後)、しかもここからマイクロソフトはOpenAIに数年で数千億円の投資を決定してるという圧倒的絶望感がアニメみたい(脚本:虚淵玄)で続きが気になる
posted at 18:24:38