Skip to content

Blog

Nespoléhejme na "AI detektory"

Stále se setkávám se snahou vypořádat se s nástupem generativní AI nasazením tzv. AI detektorů:

This software aims to flag AI-generated content in student work. However, AI detection software is far from foolproof—in fact, it has high error rates and can lead instructors to falsely accuse students of misconduct (Edwards, 2023; Fowler, 2023). OpenAI, the company behind ChatGPT, even shut down their own AI detection software because of its poor accuracy (Nelson, 2023).
-- AI Detectors Don’t Work. Here’s What to Do Instead

Open Weights vs Open Source AI

Deep Dive audio overview (vygenerováno z článku odkazovaného níže pomocí NotebookLM):


Open Weights: not quite what you’ve been told: Článek ukazuje, že "open-source" a Open Weights modely nejsou jedno a totéž. Open Weights znamená přístup k finálním parametrům daného modelu, nikoliv však ke kódu použitému k vytvoření tréninkového datasetu, ani k datasetu samotnému, nebo alespoň k jeho detailnímu popisu pokud není možné z právních důvodů dataset zveřejnit. Open Weights modely je tak velmi těžné, né-li nemožné replikovat, auditovat, porozumět procesu jejich tréninku a tím pádem i všem aspektům jejich chování (např. skrytý bias).

Mark Zuckerberg o Chatbot Aréně

Už dříve jsem psal o ohýbání LM Arena (Chatbot Arena) Leaderboardu. Zuckerberg otevřeně přiznává, že upravili model tak, aby v žebříčku uspěl:

You also mentioned the whole Chatbot Arena thing, which I think is interesting and points to the challenge around how you do benchmarking. How do you know what models are good for which things?

One of the things we've generally tried to do over the last year is anchor more of our models in our Meta AI product north star use cases. The issue with open source benchmarks, and any given thing like the LM Arena stuff, is that they’re often skewed toward a very specific set of uses cases, which are often not actually  what any normal person does in your product. [...]

So we're trying to anchor our north star on the product value that people report to us, what they say that they want, and what their revealed preferences are, and using the experiences that we have. Sometimes these benchmarks just don't quite line up. I think a lot of them are quite easily gameable.

On the Arena you'll see stuff like Sonnet 3.7, which is a great model, and it's not near the top. It was relatively easy for our team to tune a version of Llama 4 Maverick that could be way at the top. But the version we released, the pure model, actually has no tuning for that at all, so it's further down. So you just need to be careful with some of these benchmarks. We're going to index primarily on the products.
-- Mark Zuckerberg: Meta's AGI Plan (via)

Open WebUI jako rozšíření pro Rancher Desktop

V článku o AI Sandboxu jsem zmínil Open WebUI jakožto flexibilní rozhraní (chatbota) pro komunikaci s různými modely generativní AI. Nyní jsem zjistil, že je k dispozici i formou rozšírení pro Rancher Desktop (a dokonce je součástí platformy SUSE AI).

Musím říct, že instalace rozšíření nebyla úplně přímočará. Nainstaloval jsem Rancher Desktop a kliknul na instalaci rozšíření. Ta ale nedoběhla a zůstala tzv. viset, což je trochu nešťastná první zkušenost. Po restartu celé aplikace už ale instalace doběhla v pořádku. Líbí se mi, že Open WebUI běží přímo v okně Rancher Desktopu, takže se není potřeba nikam přepínat. Není ani potřeba vytvářet nového uživatele, vytvoří se defaultní uživatel User. Propojení s existující instancí Ollama proběhlo automaticky, což je taky fajn. Nevýhodou může být starší verze Open WebUI (0.5.20) oproti upstreamu (0.6.5).

Update: Vypnout autentizaci pro lokálního uživatele lze pomocí proměnné prostředí WEBUI_AUTH, nicméně to lze pouze v případě, že ještě nebyl vytvořen žádný uživatel. Více viz dokumentace.

OpenAI GPT-4.1

OpenAI vydala novou sérii modelů GPT-4.1 (via) (číslování je trochu matoucí vzhledem k nedávno vydanému GPT-4.5 research preview). Z příspěvku je zřejmé, že modely jsou cílené primárně na oblast programování a programovacích asistentů/agentů, kde dlouho vládl Claude 3.5 (resp. 3.7) Sonnet, a nově vstoupila Gemini 2.5 Pro. OpenAI inzeruje také zlepšené výsledky v následování instrukcí (oproti GPT-4o), a výrazně větší kontext - až 1 milion tokenů (což by mělo např. pojmout - 8x - celý zdrojový kód Reactu).

AI jako spolupracovník

Can AI take over some of [my] tasks? The answer is yes, and frankly, there are tasks that I wouldn't mind offloading to AI, like administrative paperwork. But does that mean my job will vanish? Not really. Getting rid of some tasks doesn't mean the job disappears. In the same way, power tools didn't eliminate carpenters but made them more efficient, and spreadsheets let accountants work faster but did not eliminate accountants. AI has the potential to automate mundane tasks, freeing us for work that requires uniquely human traits such as creativity and critical thinking–or, possibly, managing and curating the AI's creative output[.]

However, this isn't the end of the story. The systems within which we operate play a crucial role in shaping our jobs as well. [...] Let's say an AI can deliver a lecture better than I can. Would students be willing to outsource their learning to AI? [...] Would the deans of the university feel comfortable using AI in this way? Would the magazines and sites that rank schools punish us for doing so? My job is connected to many other jobs, customers and stakeholders. Even if AI automates my job, the systems in which it works are less obvious.
-- Ethan Mollick: "Co-Intelligence: Living and Working with AI", p. 125-126

Ohýbání LM Arena Leaderboardu

Andrej Karpathy vyjádřil jistou nedůvěru k výsledkům na LM Arena Leaderboard v posledních měsících. Příkladem je třeba oblíbený Claude 3.7 Sonnet, v žebříčku až okolo 15. místa. A hle, Meta nám tak trochu podvádí, resp. jejich model (na 2. místě) je jiný než modely, které reálně vydali:

Meta’s interpretation of our policy did not match what we expect from model providers. Meta should have made it clearer that “Llama-4-Maverick-03-26-Experimental” was a customized model to optimize for human preference. As a result of that we are updating our leaderboard policies to reinforce our commitment to fair, reproducible evaluations so this confusion doesn’t occur in the future.
-- lmarena.ai (via)

Pokud se jedná o upravený model, který není normálně k dispozici, říkám si proč nebyl z žebříčku odebrán.

Update: Zdá se, že Llama-4-Maverick-03-26-Experimental už byla z žebříčku odebrána, a Llama-4-Maverick-17B-128E-Instruct si nevede nijak oslnivě. Dnes okolo 32. místa.

Různí chatboti v jedné aplikaci

Už pár let používám open-source aplikaci Ferdium. Díky ní můžu mít různé služby, např. Gmail, Google Kalendář nebo Discord v jednom rozhraní bez nutnosti používat běžný prohlížeč. Zároveň můžu být přihlášený k pracovnímu i soukromému účtu zároveň aniž bych se musel odhlašovat a přepínat. Jednu službu lze přidat vícekrát, pokaždé s jiným účtem, protože každá běží izolovaně. Díky Ferdiu se mi tak nemýchají dohromady věci jako čtení emailů, chatování a prohlížení internetu. Mohu se i lépe soustředit - notifikace zůstávají ve Ferdiu a dají se případně vypnout.

Stejný princip jde uplatnit i pro různé chatboty a další AI nástroje. Namísto lovení záložek v prohlížeči mohou být přehledně ve Ferdiu, viz níže. (Ferdium je postavené na technologii Electron - jedná se tedy v principu o webové stránky běžící v Chromiu. Služby tudíž nejsou plnohodnotné desktopové aplikace.)

Ferdium screenshot

Screenshot aplikace Ferdium. Vytvořeno s pomocí Screely a GIMP.

Jak je vidět v levém panelu, ikona Anthropic (Claude) je tam 2x - jednou jako soukromý a jednou jako pracovní účet.

Zhruba před rokem jsem zkoušel přidat službu ChatGPT, ale nešlo se mi přihlásit. Nyní to vypadá, že problém byl odstraněn. Některé služby (ChatGPT, Claude, Perplexity) jsou dostupné v katalogu služeb, jiné (Google AI Studio, NotebookLM, Open WebUI) je potřeba přidat manuálně, resp. doplnit URL. Co se týče Open WebUI, měl jsem trochu obavu, jestli se Ferdium dokáže připojit i na lokálně běžící server, konkrétně http://0.0.0.0:8080/, a ano, zvládne to.

Užitečnou funkcionalitou jsou 'workspaces', díky které mám AI nástroje v samostatném pracovním prostoru (viz obrázek výše), ve kterém mě nerozptylují ikony Gmalu nebo Discordu.

O smyslu psaní blogů

Blogging is small-p political again, today. It’s come back round. It’s a statement to put your words in a place where they are not subject to someone else’s algorithm telling you what success looks like; when you blog, your words are not a vote for the values of someone else’s platform.

[...]

I don’t make any money out of [my blog], not directly. But it’s so, so worth it. I don’t how how to put a figure on the value of friends, work, ideas, opportunities and enjoyment I’ve got out of simply “thinking out loud” over the years.
-- Matt Webb: People and Blogs (via)

Nové jazykové modely a panika (nejen) na trzích

25.3.2025

Google vydal Gemini 2.5 Pro Experimental. Nyní #1 na LM Arena Leaderboard.

31.3.2025

TL;DR: we are excited to release a powerful new open-weight language model with reasoning in the coming months, and we want to talk to devs about how to make it maximally useful: https://openai.com/open-model-feedback/

we are excited to make this a very, very good model!
-- Sam Altman (via)

4.4.2025

TradingView screenshot (SPX 500)

Screenshot z aplikace TradingView zachycují propad indexu S&P 500 (denní graf za poslední rok; propad za poslední 2 dny o -10,5%).

5.4.2025

Dnes (v sobotu!) vydala Meta dvojici open-weight modelů Llama 4. Nyní #2 na LM Arena Leaderboard.

OpenAI:

change of plans: we are going to release o3 and o4-mini after all, probably in a couple of weeks, and then do GPT-5 in a few months.
-- Sam Altman (via)

AI jako nástroj (ne)komunikace

Po odstávce elektřiny mají lidé na Trutnovsku zničené spotřebiče:

Například v domě obyvatelky Stanovic Jany Hadincové ani ve čtvrtek nevařili kávu. Nechladila lednička, neohřívali vodu, nefungoval sporák a vypadla síť wi-fi. Přístroje jsou zničené. Odhad škody je sto padesát tisíc korun. „Nejhorší je ta bezmoc, když někam voláte, všude umělá inteligence, nikdo s vámi nechce mluvit,“ popsala.

Párkrát už jsem zažil situaci, kdy jsem potřeboval něco řešit a jeden z mála komunikačních nástrojů byl poněkud nespolupracující chatbot. Velmi frustrující. Nasadit AI operátora tam kde levně nahradí několik lidí bude jistě pro řadu firem velmi lákavé. Na druhou stranu výsledkem může být také čím dál více odlidštěná (ne)komunikace.

Model Context Protocol (MCP)

The Model Context Protocol aims to provide a standard interface for LLMs to interact with other applications, allowing applications to expose tools, resources (contant that you might want to dump into your context) and parameterized prompts that can be used by the models.
-- Simon Willison


MCP is an open protocol that standardizes how applications provide context to LLMs. Think of MCP like a USB-C port for AI applications. Just as USB-C provides a standardized way to connect your devices to various peripherals and accessories, MCP provides a standardized way to connect AI models to different data sources and tools.
-- modelcontextprotocol.io

Poslední dobou narážím na čím dál víc zmínek o MCP (např. na AI News, nově v Open WebUI v0.6.0 (resp. mcpo), a dokonce už i v Beancount Google Group). Úvodní kapitoly videa Building Agents with Model Context Protocol - Full Workshop with Mahesh Murag of Anthropic nabízí pěkný srozumitelný přehled.

AI jako nástroj hledání nových řešení

Andrej Karpathy ve svém videu Deep Dive into LLMs like ChatGPT (konkrétně v části o Reinforcement Learning) zmiňuje film Alphago (2017). Vřele doporučuji. Film pojednává o stejnojmenném programu, který jako první dokázal porazit Lee Sedola - jednoho z nejlepších hráčů hry Go, považované za výrazně komplexnější než třeba šachy. Ve filmu mě zaujala mimo jiné úvodní scéna zmiňující jinou hru - Breakout. Názorně ukazuje, jak program dokázal už po 500 hrách nalézt optimální strategii:

sudo bez hesla

Požádal jsem Clauda 3.7 Sonnet aby mi poradil s následující situací: mám shellový skript a některé příkazy vyžadují sudo, resp. spouštět příkaz s právy roota. Skript se spouští docela často a začíná být nepraktické pokaždé zadávat heslo. Claude přišel s návrhem povolit dané příkazy pomocí pluginu sudoers ("default sudo security policy plugin"; více viz man sudoers), který jsem do té doby neznal. Rovnou mi vypsal, co a jak mám nastavit:

sudo visudo -f /etc/sudoers.d/update

A do souboru přidat např. následující:

myuser ALL=(root) NOPASSWD: /usr/bin/apt update, /usr/bin/apt upgrade -y, /usr/bin/snap refresh

Uživatel myuser může spouštět /usr/bin/apt update, /usr/bin/apt upgrade -y, a /usr/bin/snap refresh jako root bez nutnosti se autentizovat. Příkazy musí být zadány i včetně všech uvedených parametrů (tj. apt upgrade -y, cestu není třeba zadávat), jinak je heslo vyžadováno.

Vzhledem k rostoucím schopnostem a znalostem současných modelů začíná být pocitově jednodužší (i zábavnější) jako první konzultovat problém s chatbotem, než "jít hledat na internetu". A to nejen v situacích, kdy jsou související informace s velkou pravděpodobností hojně zastoupené v trénikových datasetech. "I blbej nápad je dobrej nápad. Ne sám o sobě, ale tím, že nás může mentálně odblokovat a nasměrovat k použitelnému řešení."

Amarův zákon

We tend to overestimate the effect of a technology in the short run and underestimate the effect in the long run.
-- Roy Amara (via)