probe: do-not-answer #517

leondz · 2024-02-27T12:10:25Z

Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs

an open-source dataset to evaluate LLMs' safety mechanism at a low cost. The dataset consists only of prompts to which responsible language models should not answer.

leondz added probes Content & activity of LLM probes new plugin Describes an entirely new probe, detector, generator or harness labels Feb 27, 2024

This was referenced Apr 16, 2024

implementatio of do-not-answer #517 #604

Closed

Probe: Do not answer #606

Closed

Probe: Do Not Answer #607

Closed

Probe: Do Not Answer #608

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

probe: do-not-answer #517

probe: do-not-answer #517

leondz commented Feb 27, 2024

probe: do-not-answer #517

probe: do-not-answer #517

Comments

leondz commented Feb 27, 2024