На skills.sh есть огромное количество интересных скиллов для ваших агентов в лице codex / claude code и так далее. Но среди прочих мне очень запал в душу простой youtube-transcript.
Этот скилл просто учит агента получать транскрипт видео. А дальше агент может спокойно отвечать на самые разные вопросы по содержимому видео. Например, я начал часто копировать ссылку на видео, открывать терминал и писать pi "суммаризируй <URL>" (я пользуюсь pi вместо codex). И это удивительно хорошо работает. Даже на масштабах многочасовых интервью, GPT 5.4, по крайней мере, спокойно находит ответы на какие-то вопросы и предоставляет таймкоды.

Я тоже стараюсь сначала читать выжимки из длинных видео, если сомневаюсь, что там есть что-то ценное. Но я для этого использую Gemini (или просто Chrome), т.к. у него есть доступ к внутреннему YouTube API для получения транскриптов. А оpen source решения часто ломались. Хотя не знаю, работает ли Gemini нормально из России.