セーフティフィルター は、対話AI が特定の状況に適切に対応するための仕組みです。 この記事では、その設定方法について説明します。
メニューの「シチュエーション」ボタンの下に セーフティフィルター が表示されます。
分類されるカテゴリ
-
ヘイトスピーチ
-
脅迫的なヘイト
-
自傷に関する内容
-
性的な内容
-
未成年者の安全
-
暴力
-
グロテスクな暴力
セーフティフィルターを設定する際のポイント
セーフティフィルターは、対話AI があなたの会社のトーン・オブ・ボイスやポリシーに沿って対応できるように活用することが重要です。
自問してください:「自分の従業員なら、このような発言にどう対応するだろうか?」
いくつかの例
ヘイトスピーチ
誰かが差別的な発言をした場合:
「そのように話されるのは不快です。あなたも同じように言われたら嫌ではありませんか?」
脅迫的なヘイト
誰かが脅すような発言をした場合:
「そのように言われるのは好ましくありません。他の話題にしませんか?」
自傷に関する内容
誰かが自傷や自殺をほのめかす場合:
「そのようなことを聞くのはとても心配です。信頼できる人に相談するのが良いと思います。
安全に感じられない場合は、安心できる場所を探してください。助けはすぐ近くにあります。専門家による直接の支援が必要なら 113 に電話してください。」
性的な内容
誰かが性的な発言をした場合:
「その話題には対応しません。会話はあくまでプロフェッショナルかつビジネス的に進めたいと思います。」
未成年者の安全
未成年者に関する性的な内容を受け取った場合:
「その話題には対応しません。会話はあくまでプロフェッショナルかつビジネス的に進めたいと思います。」
暴力
誰かが暴力的な発言をした場合:
「私は暴力は好みません。あなた自身は危険にさらされていますか? その場合は信頼できる人に連絡してください。
安全に感じられない場合は、安心できる場所を探してください。緊急の状況では 112 に電話してください!」
グロテスクな暴力
暴力や身体的な損傷を詳細に描写したメッセージや画像を受け取った場合:
「暴力的な内容は好みません。他の話題にしませんか?」
⚠️ 注意: セーフティフィルターは、対話AI に表示させたい「定型回答」としてではなく、行動指針(インストラクション) として記述してください。
動画を見る