ハクソク

世界を動かす技術を、日本語で。

ChatGPT 画像 2.0

概要

  • OpenAI公式のライブストリーミング情報
  • 視聴方法や特徴の簡単な説明
  • 公式サイトの利用推奨
  • ライブ配信の目的や活用例
  • 注意点や推奨事項の案内

OpenAI Livestreamの視聴案内

  • OpenAIが主催する公式ライブストリーミング配信
  • 視聴URLはhttps://openai.com/live/
  • 最新技術発表や製品デモンストレーションの配信
  • 研究成果や今後のロードマップ説明
  • 視聴にはインターネット接続とWebブラウザが必要
  • リアルタイム参加で質疑応答やインタラクション可能
  • 配信内容は録画アーカイブとして後日閲覧可能な場合あり
  • OpenAI公式サイトまたは公式SNSで開催日時の告知
  • 参加費無料で誰でも視聴可能
  • 重要発表や新機能の初公開に最適な情報源

Livestream活用のポイント

  • 技術者や研究者、開発者向けの情報収集手段
  • 最新AI動向やOpenAI製品の使い方把握
  • 企業担当者によるビジネス活用事例の紹介
  • 教育関係者や学生にも役立つ内容
  • 質疑応答セッションで直接質問可能な機会
  • オンラインイベントのため世界中から参加可能

視聴時の注意事項

  • 公式URL(https://openai.com/live/)以外のサイト利用は推奨しない
  • 個人情報入力や不審なリンクには注意
  • 配信時間や内容は事前に公式で確認
  • 録画視聴の場合は公式アーカイブの利用を推奨
  • SNS等での情報共有は出典明記が望ましい

Hackerたちの意見

HNに直接リンクの投稿したけど、なぜかHNのアルゴリズムにペナルティ食らってるみたい。: https://news.ycombinator.com/item?id=47853000
価格比較: GPT Image 2 低: 1024×1024 $0.006 | 1024×1536 $0.005 | 1536×1024 $0.005 中: 1024×1024 $0.053 | 1024×1536 $0.041 | 1536×1024 $0.041 高: 1024×1024 $0.211 | 1024×1536 $0.165 | 1536×1024 $0.165 GPT Image 1 低: 1024×1024 $0.011 | 1024×1536 $0.016 | 1536×1024 $0.016 中: 1024×1024 $0.042 | 1024×1536 $0.063 | 1536×1024 $0.063 高: 1024×1024 $0.167 | 1024×1536 $0.25 | 1536×1024 $0.25
解像度をそんなに制限するのは変だね。もっと詳細にすると崩れちゃうの?それともコストが一気に上がるのかな?
面白いね、なんでv2では大きい出力の方が小さい正方形のものより高いんだろう?v1では逆だったのに。
新しいモデルをこんな感じで試してみたよ: OPENAI_API_KEY="$(llm keys get openai)" \ uv run https://tools.simonwillison.net/python/openai_image.py \ -m gpt-image-2 \ "ウォルドを探せ風の画像を作って、ラジオを持ってるアライグマを探して" コードはこちら: https://github.com/simonw/tools/blob/main/python/openai_imag... そのプロンプトから得られた結果はこれ。ラジオを持ってるアライグマは含まれてなかったと思う(ウォルドを探せの問題は、解く根気がないからね): https://gist.github.com/simonw/88eecc65698a725d8a9c1c918478a...
> ウォルドを探せの問題は、解く根気がないからね 新しいAIテストのチャンスがあると思う!
5.4の思考では「中央の右側、HAM RADIO小屋のすぐ右。そこにある土の道を見て: アライグマは赤と黄色のシャツを着た女性の後ろに部分的に隠れている小さな灰色の姿で、緑の帽子をかぶった男性の少し上にいる。左から約57%、上から48%。」(これが正しいとは思わないけど)。
haha、建物の一つに「Ham radio」って書いてあるのに気づくのにちょっと時間かかった。
アライグマ見つけたよ。
代わりにこのコマンドを使ったら、ずっと良いバージョンができた。最大画像サイズを使うやつで、詳細はここ: https://github.com/openai/openai-cookbook/blob/main/examples... OPENAI_API_KEY="$(llm keys get openai)" \ uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \ -m gpt-image-2 \ "ウォルドを探せ風の画像を作って、ラジオを持ってるアライグマを探して" \ --quality high --size 3840x2160 https://gist.github.com/simonw/88eecc65698a725d8a9c1c918478a... - アライグマ見つけた!この画像は40セントくらいかかったと思う。
うわ、ここに面白いゲームアプリが作れそうだね ^^
二枚目の4K画像、左にタヌキがいるじゃん!いいね。
本当に疑問なんだけど、画像生成器の危害を受け入れるだけのポジティブな使い方って何があるの?思いつくのは、同意できない人の写真を撮る代わりとか、写真を見返すのがトラウマになる人のために使うことかな。例えば認知症の患者や赤ちゃん、特定の病状の例とか。その他の曖昧にポジティブな使い方は「画像生成器ができることを見て」って感じで、社会にとって必要な理由はほとんどないよね。一方で、これらのツールが引き起こす本当の害は、個人だけじゃなくて全体のシステムにも影響を与える方法がたくさんあるよ。
AIについてのLLM生成のブログ記事をどうやって表現するつもりなの?
同じ議論がほとんどすべてに適用できて、みんなの見方が大きく異なるってことはないの?
アート全般についても同じ質問ができるよね。これに対する反応は、たぶん人をイラつかせるだろうけど、考える価値はあると思う。多くのアートは「社会にとって必要」ってわけじゃないし。「その利益は社会にとってのコストに見合うのか?」っていう疑問は残るけど、楽しむためにやってることもたくさんあるしね。
食べ物、水、住居以外に「必要」なものってあんまりないけど、いいものがあるのは嬉しいよね。うちの4歳の娘に読み書きを教えてるんだけど、彼女はPAW Patrolが好きで、簡単な本はもうほとんど読んじゃったから、新しいものが欲しいみたい。だから昨日、LLMを使って彼女の好きなキャラクターで簡単な読本を作って、各テキストを塗り絵にしたんだ。印刷して、彼女と妹が塗って、それを自分の本にホチキスで留めたよ。もちろん、3語の文を10個考えることはできるけど、塗り絵にするほど絵が上手じゃないし(実際、彼女の方が上手いくらい)、これをもっと大きなアイデアにして進捗を追えるようにしたいんだ(例えば、どの音素や視覚語がマスターされていて、どれを紹介・重点的に教えるかとか)。モデルは将来的にパーソナライズされた教育の基盤になるだろうし、その文脈ではもちろん、画像(や動画)が必要になるよね!
たくさんあるよ!- パッケージデザイン - マニュアルやガイドの写真 - ナビゲーションや標識 - 小冊子、チケット、フライヤー - あらゆる種類のロゴ - ウェブサイト - 本のイラスト そして他にもたくさん。すべての画像がアートではないし、イラストレーターの中でアーティストはほんの一握りだよ。
プロトタイピング。もし、自分のビジョンを言葉で表現したり、視覚的に実行するのが難しいなら、こうしてみて。1. 何百、何千もの低解像度の候補を生成して、ビジョンに合うものを見つけて、反復する。2. その生成した画像を人に渡して、「これが考えていることなんだけど、どうやって実現する?」って言う。重要なのは、最後のステップを飛ばさないこと。
もう数時間このモデルを使ってるけど、実際にすごく感心してる。自分がやってることに価値を見出したのは初めてだよ。パワーポイントのスライドやモックアップを作るのに使ってるけど、めちゃくちゃ良い感じ。
> 一方で、これらのツールが引き起こす本当の害は、個人だけじゃなくて全体のシステムにも影響を与える方法がたくさんあるよ。うん、同意。初めて自分に問いかけてる気がする。「この新しいクールな技術、何に使えるの?」って。アートの観点から見ると、無視されちゃうし(アートは人間に関するものだから)、資産の観点からは確かに使えるけど、みんなAI生成の画像に飽きてきてるよね(画像がAI生成かどうかは分からなくても、企業がAIを使って画像を生成してるのは分かるから、魅力が減ってきてる)。広告?それはちょっと悲しいよね。他に何がある?一般的に、人々は努力なしで生成されたものに時間をかける価値がないって気づき始めてると思う(例えば、AIが生成した30ページの草稿を誰も読まないし、AIが生成した500ファイルの変更PRを誰もレビューしないし、AIが生成した画像に感動する人もいない。音楽や他のものも同じ)。「人間が生成したもの」のルネサンスが来るんじゃないかな。すでに職場で見かけるし(同僚がスラックで「次のメッセージはAI生成じゃないって誓う」って言ってるのとか)。
図を作るのにこれを使うのは本当に価値があると思う。視覚的な説明は役立つけど、ほとんどの人はそれを作る才能や時間がないんだよね。この新しいモデル(その前のNano Banana Proも含めて)は、質の境界を越えて、実際に人が概念を理解するのに役立つ視覚的な説明を作れるようになった。AI生成の画像をプレゼンやドキュメントで使ったことはなかったけど、今は本当に資料を引き立てて、わかりにくい概念を説明するのに役立つなら、使ってみようかなって考えてる。
> 「これが新しいクールな技術、何に使えるんだろう?」って自分に問いかけるのは初めてかも。業界の人たちはこれを常に考えるべきだと思う。今の社会の問題の多くは、2000年代の主流のテクノ楽観主義から派生してる。クランズバーグの第一法則を見てみて—「技術は善でも悪でもないし、中立でもない。」
人間のルネサンスについても考えてるし、実現してほしいな。もちろん、社会的には多くの人にとって状況が悪化すると思う。水がなくなったり、水が汚染されたりしてる町ももう見えるし。データセンターを建てるために町のリーダーたちが受け取ってるキックバックがインフラ改善に使われると思うかもしれないけど、そんなの非現実的だよね。なんでそんな非現実的なんだよ? SMH
これが今の私の考え。作る気がないなら、私が読む気になるわけないじゃん。
今、エデュテックゲームを作ってるんだ。前は、アーティストを雇う予算がなかったから、もっとシンプルなものになってたし、インタラクティブ性も低かったけど、これのおかげでより魅力的な体験を作れるようになった。それが一つの成果かな。
2Dスプライトを生成するには十分そうだね。これがピクセルアートゲームの波を生むなら、私はそれを勝ちだと思う。ゲーマーがAIを嫌ってるわけじゃないと思う、ただ声が大きい少数派だよね。ほとんどの人が嫌がるのは雑な仕事で、それは当然だけど、AIがあってもなくても起こりうること。業界は10年以上も前から、テクスチャや声などにAIを使ってるんだよ。
スクリプトをひっくり返す必要があるね。AIがマーケティングをしようとしてる。「違法使用はXにつながる」ってのは好奇心を引き起こすきっかけになる。若者向けのゲームを検閲すると、危険がクールだからこそ、逆に買いたくなるっていう言い回しがある。何も害を及ぼさないものなんてないよ。ナイフ、車、アルコール、ドラッグ。社会はリスクと利益のバランスを取る必要がある。言葉も害を及ぼすことができるし、メールや何でもそう。意図とその種類次第だね。
壁紙やステッカー、アイコンはデザインできないけど、画像生成モデルに口頭で説明したり、ソース写真を使ったりすれば、結構いい結果が出るんだ。特にアイコンに関しては、ホーム画面やショートカットをカスタマイズする全く新しい方法が開けたよ。社会の存続には必要ないかもしれないけど、この新しい能力を楽しんでる。
あなたの言いたいことはわかるけど、再考してみて。私たちは見る必要があるし、見るだろう。時間が経てばわかるし、これは単に経済の問題だよね:役に立つ?うん、そうじゃない。ニッチなスポーツの世界選手権を見た後、自分の支出習慣を考えたら、全然無関心になったんだ。ある人にとっては呼びかけ、他の人にとっては無駄。結局、数字のゲームだね。
最近、バルコニーのデザインに画像生成を使ったんだけど、すごく良かった。デザインアイデアを実際の場所で想像できて、何をするか決めるのに役立った。人がアイデアや初期プロトタイプをイラストにするためにアーティストを雇うことは多いけど、AI生成の画像なら、自分でやったり、数年前よりも10倍早くできるようになったよ。
中国語のテキストレンダリングの改善は素晴らしくて、感心した!でも、Wuxiに関する中国語のサンプル画像にはいくつか誤字があったよ。例えば、小笼包の「笼」が間違って書かれてたし。「极小中文也清晰可读」って部分にももっと誤字があったけど、まだ読める。とはいえ、本当に驚くべき進歩だね。以前の画像生成モデルよりもはるかに良い。
画像モデルのテストとして、チェスのオープニングを示す画像を作るように頼んでみたんだけど、このモデルもバナナプロも全然ダメだった。画像自体は見た目がいいけど、実際の詳細がいつも間違ってるんだよね。例えば、ポーンの位置が間違ってたり、ポーンが抜けてたり…。自分でも試してみて!「クイーンズギャンビットのオープニングゲームを子供たちに教えるためのポスターを作成して。」
どの動き?今は誰のターン?拒否されたの?それとも受け入れられたの?ゴミを入れたら、ゴミが出てくるよ。
ほぼ完璧だった(2つのマスが白と黒の両方の色)。すべてのピースと配置は正しいように見える。
ここまで頑張って、ママとその友達にWhatsAppグループで本物と偽物を見分ける方法を教えたのに、なんだか誇らしかったのに。詐欺師たちにはさらに強力なツールがあるんだよね。ちょっと休憩するわ。
個人的には、間違った戦いをしてると思う。新しいモデルは常に出てくるからね。でも、フェイクニュースやメディア、レトリックの作られた性質の広い概念の方がずっと重要だよ。例えば、何かがAIかどうかは、撮影されたセグメントが本物である必要がないとか、正しい文脈に帰属する必要がないという事実にはほとんど関係ない。画像をキャプションを変えて使うのは、古いインターネットのクラシックだし、誰も文脈を見分けられないし、ファクトチェックする時間もないからね。
今回はピアノの鍵盤テストをクリアしたよ:https://chatgpt.com/s/m_69e7ffafbb048191b96f2c93758e3e40 でも、ミドルCをラベル付けしようとしたときに失敗した:https://chatgpt.com/s/m_69e8008ef62c8191993932efc8979e1e