YouTube Digest
Listen to this issue
English
Based on “Your life needs more ‘existential grit.’ Here’s how to find it | Kate Bowler” from Big Think Watch the original video
Beyond Bliss: Why Your Life Needs the Gritty Grace of Joy
By [Your Name/Staff Writer – or omit if preferred]
We live in a culture obsessed with happiness. From self-help gurus to social media feeds, the message is clear: strive for an unblemished state of contentment, where every moment is a picture of well-being, flourishing, and perhaps, “kids in matching denim.” But what if this relentless pursuit of happiness is actually preventing us from experiencing something far more profound, something that can carry us through life’s deepest valleys and still make us laugh?
According to Kate Bowler, a historian, podcaster, and writer who studies luck, meaning, and what makes life beautiful, our understanding of positive emotions is deeply flawed. Bowler, known for her candid explorations of faith and suffering, argues that while you can’t be happy and sad at the same time, you absolutely can be joyful and sad simultaneously. This distinction, she contends, is where we find true “existential grit.”
When Happiness Isn’t Enough
Bowler’s insights are not purely academic; they are forged in the crucible of personal experience. She describes a period of immense fortune: finally having a longed-for baby after years of infertility, landing her dream job as a historian at Duke University, and being married to her high school sweetheart. Life, she felt, was finally “paying off.”
Then, a devastating season of “powerful unluck” struck. Diagnosed with stage four cancer after a long, arduous battle to receive proper care, Bowler found that happiness, as she knew it, simply wasn’t enough anymore. “I was just never gonna be able to, like, add up my life in the same way,” she recounts. “So I needed something more existentially gritty. I needed joy.”
This pivotal realization led her on a quest to understand an emotion capable of carrying a person through a terrible time and into a new season.
The Fragility of Happiness vs. The Resilience of Joy
The confusion between happiness and joy is common, Bowler observes, largely because both reside on the “positive end of the spectrum.” Americans, in particular, are bombarded by an enormous “happiness industry” that equates well-being with a psychologically relaxed, easy state – a cumulative result of things going well.
Psychologists, however, draw a critical distinction. Happiness, Bowler explains, is a definable set of qualities: ease, comfort, a state that is deeply contextual. “It happens because things have gone well,” she says. “That’s what makes happiness lovely, but also makes it very fragile. One thing goes wrong and you can topple the whole mood of happiness.”
Joy, by contrast, operates on an entirely different plane. It’s not about escaping reality or denying pain; it’s about integrating it. “Joy engages not just the dopamine and the, like, happier parts of our brain chemistry,” Bowler explains. “It still coexists with our stress systems, with really dark emotions, with despair, with enormous pain, meaning that we’re not escaping the reality of what we’re in. We’re adding another layer on top of it.”
It’s this capacity to bind together broken pieces while still making you laugh that makes joy so fascinating and, ultimately, so powerful.
The Existential Yes
Joy is not merely a fleeting sweetness; it is one of the most transformative human emotions. It makes us more grateful, more hopeful, and it delights us, often eliciting laughter even in the direst circumstances. Bowler describes it as “this great existential yes that reminds us that life is still worth loving, even in the midst of the worst times.”
This profound affirmation allows us to perceive reality with new eyes, to look at the totality of our experience – the good, the bad, the beautiful, the ugly – and still feel, somehow, that it is good.
For many, particularly within the Christian tradition, joy holds a special place as a divine gift, a moment of transcendence. Psychologically, it fosters a deep sense of bonding and connection – to other people, to the divine, to the very fabric of existence. It’s an emotional openness that reconciles seemingly irreconcilable experiences.
Cultivating Existential Grit
If joy is this potent, life-sustaining force, how do we find it? Bowler suggests that the preconditions for joy are often the direct opposite of what our “machine selves” demand.
Two key elements emerge repeatedly: emotional availability and connection. In a world that often encourages us to shield ourselves from vulnerability, opening up to our emotions and forging genuine connections with others are crucial.
Another powerful precondition is a willingness to be surprised. “I think a person who wants to be surprised is a person who’s much more likely to find joy,” Bowler notes. This implies a conscious effort to step away from the predictable, to put down our phones and close our laptops, and to cultivate a sense of “experiential surprisability.”
Ultimately, happiness is an emotional state, a fleeting mood dependent on external circumstances. Joy, however, is a story. “It is a feeling that somehow in your spirit that it feels good to be alive, to be here, to be put together with whatever you have left,” Bowler articulates. It can lift you from the very bottom to the very top, and at its core, “mostly what it takes is love.”
Joy Is For Everyone
Perhaps the most surprising and liberating aspect of Bowler’s message is that joy is not a “bonus level of happiness” reserved for the fortunate or the perfectly content. Quite the opposite.
“I think it would be a huge relief to the person struggling with depression, to the person right in the middle of fresh grief, to the person who is just frankly, deeply bored by their life that joy is definitely for them,” Bowler asserts.
This is the true power of existential grit: a joy that is both emotional and existential, tangible and profound. It is real, it is raw, and it is the very thing that can carry us through life’s inevitable storms, reminding us that even when broken, life is still worth loving, still worth living, and still capable of surprising us with its luminous grace.
Based on “The Rise of the Dictater” from Every Watch the original video
Unleash Your Voice: The Rise of the ‘Dictater’ in the AI Age
For generations, the keyboard has been our primary interface with the digital world. From crafting emails to coding complex algorithms, our fingers have danced across QWERTY layouts, translating thought into text. But what if there was a more natural, more efficient way to communicate with our machines? What if the future of productivity lay not in our fingertips, but in the power of our voice?
Enter the “dictater.” It may sound like a term pulled from a dystopian novel, but in the context of modern productivity, it refers to someone who dictates their thoughts, ideas, and commands rather than typing them. And surprisingly, these “dictaters” are poised to revolutionize how we work, driven by a powerful confluence of human physiology and artificial intelligence.
The Silent Struggle of the Keyboard
Think about it: how often do your fingers struggle to keep pace with your thoughts? The human brain processes ideas at an astonishing speed, but our typing speed is often a bottleneck. We might formulate a perfect sentence in our mind, only to have the rhythm broken by a typo, a backspace, or the sheer physical effort of striking keys.
Beyond the speed disparity, there’s the physical toll. Long hours spent hunched over a keyboard can lead to finger cramps, wrist strain, and even repetitive strain injuries. There’s also the subtle, yet pervasive, “input lag” – the minuscule delay between thought and its digital manifestation that, over time, can disrupt flow and creativity. The keyboard, for all its utility, is an artificial barrier between our minds and our output.
The Natural Flow of Voice
This is where the “dictater” finds their advantage. We can speak significantly faster than we can type. This isn’t just about raw words per minute; it’s about the ability to convey ideas as naturally as they form in our heads. There’s an immediacy to spoken language that typing simply can’t replicate. When you dictate, your thoughts flow unimpeded, mirroring the organic process of human conversation.
Imagine brainstorming a complex project, drafting a detailed report, or even composing creative prose. Instead of pausing to type, you simply speak, allowing your ideas to cascade into existence. As one early adopter puts it, “Hey. Yeah, that’s exactly what I meant.” The clarity and precision achieved through direct voice input often surpass what can be painstakingly typed out, leading to more authentic and impactful communication.
AI: The Catalyst for the Voice Revolution
Historically, dictation had its limitations. Early voice recognition software was clunky, prone to errors, and required significant manual correction. This is precisely why the keyboard maintained its dominance. However, the landscape is rapidly changing, thanks to incredible advancements in Artificial Intelligence.
Modern AI tools are no longer just transcribing words; they are understanding context, learning individual speech patterns, and even adapting output formats. Think of an AI assistant that can:
- Accurately Transcribe: Convert spoken words into text with near-perfect precision, even in varied accents or noisy environments.
- Translate Seamlessly: Instantly bridge language barriers, turning your spoken English into written Spanish, or vice-versa.
- Understand Context: Go beyond simple transcription to grasp the nuances of your message, identifying key terms, action items, or even sentiment.
- Adjust Output Format: Whether you’re dictating notes for a meeting, drafting a formal email, or outlining a presentation, the AI can format the output appropriately, allowing you to stay in flow without breaking concentration to manually adjust.
- Learn and Adapt: The more you use these tools, the better they become at understanding your unique voice, vocabulary, and preferences.
This new generation of AI-powered tools removes the friction that once plagued dictation. They turn your voice into a powerful, versatile input method that adapts to you, rather than forcing you to adapt to the limitations of a machine.
The Future is Spoken
As these AI capabilities continue to improve at an exponential rate, we are poised to witness a significant rise of “dictaters” around the world. Professionals across every discipline – writers, programmers, doctors, educators, business leaders – will increasingly choose monologue as their primary mode of interaction with technology.
Platforms like ‘Every’ exemplify this shift. Described as “the only subscription you need to stay at the edge of AI,” it learns, transcribes, and translates across different disciplines and languages, adjusting its output format to match your context. This means you can dictate a complex medical report one moment, then switch to brainstorming marketing copy the next, all while maintaining an uninterrupted flow of thought.
The “dictater” isn’t about control in the traditional sense; it’s about regaining control over your time, your ideas, and your creative output. It’s about empowering individuals to communicate with their devices in the most natural and efficient way possible: through their own voice.
The keyboard will likely remain a tool in our arsenal, but its reign as the undisputed king of input is drawing to a close. The future of productivity is clear, articulate, and spoken aloud. Are you ready to unleash your inner “dictater”?
Based on “Build a team of AI Agents to run your business” from Greg Isenberg Watch the original video
Beyond the Chat: Building Your AI-Powered Business Department
The world of Artificial Intelligence can often feel like a dizzying maze of acronyms and complex concepts. From LLMs to agent harnesses, the jargon alone is enough to deter many from exploring its truly transformative potential. Yet, beneath the surface of this complexity lies a profound shift in how we can interact with and leverage AI – a shift from simple chat interactions to powerful, autonomous AI agents capable of running entire departments of your business.
Greg Isenberg, host of a popular podcast, recently brought on his friend and AI expert, Remy Gasill, to demystify this evolving landscape. Remy, who has structured his own company around these digital workers, believes that while most people are still “chatting” with AI, the real productivity gains lie in harnessing AI agents. “The AI landscape is moving into stage two from chat to agents,” Remy explains, “and the founders and employees that are utilizing agents are, no word of a lie, 10 to 20 times more productive in their day.” This isn’t just about marginal improvements; it’s about exponential growth that can leave competitors miles behind.
The core message is clear: understanding and implementing AI agents today is not just an advantage, but a necessity for future success.
From Conversation to Command: Chat Models vs. AI Agents
The first step to unlocking this new era of productivity is to understand the fundamental difference between a chat model and an AI agent. The term “AI agent” is often thrown around loosely, losing its true meaning. Remy offers a crystal-clear distinction:
- Chat Model: “Question to answer.” Think of it like a game of ping-pong. You ask a question, the AI replies, and then the ball is back in your court. You do the work of synthesizing, planning, and executing based on its response.
- AI Agent: “Goal to result.” This is a paradigm shift. You give the agent a complex task or a goal, and it takes ownership. It plans, executes, and iterates until it delivers the desired result, minimizing your direct involvement. As Greg puts it, “Chat is kind of like ping-pong back and forth, back and forth. And agent is you’re giving it a goal and you’re hoping that over time it gets better and closer to that goal.”
Imagine wanting to build a website. With a chat model, you’d ask, “How do I build a website?” It would give you steps. You’d then have to follow those steps. With an agent, you’d say, “Build me a minimalist portfolio site for Greg Isenberg,” and the agent would go away and do it.
The Engine of Autonomy: Understanding the Agent Loop
What enables an AI agent to move from a simple response to a complete result? The answer lies in what’s called the Agent Loop. This iterative process allows the agent to continuously work towards its goal without constant human intervention. The loop consists of three core steps:
- Observe: The agent takes in new information. This could be your initial prompt, files in its workspace, or feedback from its previous actions.
- Think: Based on its observations and its overall goal, the agent strategizes. It asks itself: “What’s the next logical step?” “What information do I need?” “What tools should I use?”
- Act: The agent performs an action based on its thought process. This could be conducting research, writing code, drafting an email, or interacting with an external tool.
This loop repeats endlessly until the agent determines that the task is complete, based on parameters you set in your initial prompt.
A Real-Time Demo: Building a Website
Remy illustrates this with the “build a minimalist portfolio site for Greg Eisenberg” example.
- Initial Prompt: “Build me a minimalist portfolio site for Greg Eisenberg.”
- Observe: The agent receives the prompt. It checks its workspace for any existing files or context about Greg. If none exist, it identifies a knowledge gap.
- Think: “Who is Greg Eisenberg? I need to research him to build a relevant site.”
- Act: It uses a web search tool (like Perplexity, if connected) to gather information about Greg.
- Observe (Loop 2): It now has the initial prompt and the research about Greg.
- Think: “Okay, I know who Greg is. Now I need a plan to build the website.”
- Act: It drafts a plan for the website’s structure and content.
- Observe (Loop 3): It now has the prompt, research, and a plan.
- Think: “Time to write the code for the website.”
- Act: It generates the HTML, CSS, and potentially JavaScript for the site.
- Observe (Loop 4): It has the code.
- Think: “Greg wanted this published in preview mode. I need to deploy it.”
- Act: It deploys the site to a local server.
- Observe (Loop 5): The site is deployed.
- Think: “Is the task complete? Does the site match the ‘minimalist portfolio’ criteria?” It might even screenshot the site and review it.
- Act: Concludes the task and presents the live preview to the user.
This iterative process, constantly observing, thinking, and acting, is what allows agents to tackle complex, multi-step tasks that would overwhelm a simple chat model.
The Anatomy of an AI Agent
Every AI agent, regardless of its specific platform, is built upon four fundamental components:
- The LLM (Large Language Model): This is the “brain” of the agent, the underlying intelligence that processes information and generates responses. Think of models like Claude Opus, GPT-4, or Gemini.
- The Loop: As described above, this is the continuous “observe, think, act” cycle that drives the agent towards its goal without stopping after a single response. It’s the mechanism that transforms ping-pong into a marathon.
- Tools: These are the external applications and services the agent can connect to and interact with. This is where AI agents become truly powerful, integrating with your email, calendar, project management software, and more.
- Context: This is all the information about you, your business, your preferences, and your processes that the agent needs to operate effectively.
A platform that facilitates this entire process – essentially housing the LLM, managing the loop, and providing the framework for connecting tools and context – is known as an Agent Harness. Popular examples include Claude Code, Codeex, Anti-Gravity, OpenClaw, and Manis.
Agent Harnesses: Your AI’s Dashboard
Think of agent harnesses like different cars. “What we’re going to learn today is we’re going to learn to drive,” Remy analogizes. “Once you know how to drive, you can kind of jump in any car, whether it’s like an old Toyota, a Range Rover, and you inherently sort of know what to do.” Agent harnesses are those cars. Some might have better features like “seat warmers and cruise control,” but the core functionality remains the same once you understand the underlying concepts.
These harnesses provide the interface for you to define tasks, connect tools, and manage the agent’s workflow. They often work with local files on your computer, making your AI setup portable and future-proof.
Security Considerations: When connecting agents to your business tools, security is paramount. Remy advises scoping access carefully. While major platforms are built with security in mind, it’s crucial to control what permissions an agent has. For instance, giving it read-only access to sensitive platforms reduces risk. As Remy notes, platforms like OpenClaw are “the wild west” in comparison, requiring more user vigilance.
Onboarding Your Digital Employee: The Art of Context Engineering
Just as you wouldn’t expect a new human executive assistant to perform effectively without proper onboarding, your AI agent needs to be trained on your business, preferences, and processes. This is where Context Engineering comes into play, marking a significant shift from the old focus on “prompt engineering.”
1. The agents.md File: Your Agent’s System Prompt
Unlike chat models that secretly build a cloud-based memory of your conversations, AI agents start with a blank slate in each new session. To give them a foundational understanding, you create an agents.md (or claude.md, gemini.md depending on the harness) file within your agent’s local folder.
This markdown file acts as a persistent system prompt, loaded every time you start a new session. It contains:
- Role Definition: “You are my executive assistant.” “You are my head of marketing.”
- Context about You/Your Business: Who you are, what your business does, your clients, your products/services.
- Working Preferences: Your preferred tone, communication style, tools you use, and how you use them (e.g., “use Notion for project management, Stripe for payments”).
With this file in place, a simple prompt like “Write me a cold email” transforms from a generic request into a highly contextualized one. The agent immediately knows your business, your target audience, and your preferred tone, allowing it to ask intelligent follow-up questions (e.g., “Is it for a brand or sponsor, potential partner, or consulting client?”) and generate a much more relevant draft.
If you have extensive context, you can even create a separate context folder with multiple markdown files (e.g., brand_voice.md, ideal_customer_profile.md). Then, in your main agents.md file, you instruct the agent to “read my context folder to understand about myself and my business,” effectively chaining your knowledge base. Some users even link it to their Obsidian vaults for a “second brain” approach.
2. The memory.md File: The Self-Improving Loop
Even with a robust agents.md file, a new challenge arises: remembering intricate details and preferences across sessions. If you tell your agent, “My favorite color is lavender,” it might acknowledge it but forget it in the next session. This is problematic for continuous improvement, especially for things like email sign-offs or specific formatting preferences.
To solve this, Remy introduces the memory.md file. By adding a simple instruction to your agents.md file – “When I correct you or you learn something new, update the relevant section in memory.md” – you create a self-improving loop.
The memory.md file acts as a dynamic record of all your preferences, corrections, and learned behaviors. If you tell your head of sales agent, “Never sign off emails with ‘cheers,’ use ‘warm regards’ instead,” it will not only apply that preference but also update memory.md. The next day, it will automatically recall this preference.
This compounding effect means that over weeks and months, your agents become increasingly attuned to your specific needs, reducing errors and becoming genuinely indispensable. While some agent harnesses are starting to build in automatic memory systems, understanding the manual setup highlights the underlying mechanism.
A valid concern is whether memory.md files can become too large and unwieldy. Remy advises keeping agents.md files concise (around 200 lines) and suggests that for memory, you can refine the instruction to “only save substantial corrections” if it starts logging trivial details.
Connecting the Dots: The Power of MCP
The true magic of AI agents comes alive when they can interact with your existing tools. This is facilitated by the Model Context Protocol (MCP).
Before MCP, connecting an LLM to different tools was like trying to get people speaking different languages to communicate directly. “Claude speaks English, Notion speaks Spanish, Gmail French, your browser Japanese, and Slack Chinese,” Remy explains, referencing an analogy from Ross Mike. While custom solutions existed, they were extensive and time-consuming.
Anthropic (the creators of Claude) developed MCP as a universal translator. MCP sits between your agent and your tools, speaking every language. Your agent can simply “speak English” (its native LLM language), and MCP translates its commands into the specific API calls for Gmail, Notion, Stripe, or any other connected tool, and then translates the tool’s response back to the agent. This standardized protocol makes connecting tools remarkably easy within agent harnesses.
Most agent harnesses offer a simple “connectors” or “integrations” section where you can link your Gmail, Google Calendar, Notion, Stripe, Granola (for meeting notes), and hundreds of other apps using MCP.
The AI Operating System: A New Way of Working
Remy envisions a future where everyone has an AIOS (AI Operating System) – a central hub where they interact with their personal and departmental AI agents. This AIOS, built upon local markdown files and integrated tools, becomes your single point of truth and action.
“I don’t even enter these tools anymore,” Remy states, referring to Gmail, Google Drive, Calendar, Notion, and Stripe. “I just sit in Claude Code as one central place.”
Demo: The Integrated Executive Assistant
To demonstrate the power of this integration, Remy walks through a common business workflow:
- Task: “Summarize my inbox from today.” The agent, connected to Gmail via MCP, quickly reviews and highlights key emails.
- Follow-up Task: “Okay, great. Review my meeting notes with Maltoshi from today, then draft up the email sending the proposal and creating the Stripe payment link, and then go into Notion and set up the project.”
Here’s how the agent, leveraging its loop, context, and tools, executes this complex task:
- Observe & Think: It identifies the need to access meeting notes, create a proposal, generate a payment link, and set up a project.
- Act (Tool 1 - Granola): It connects to Granola (meeting notes app) to retrieve the full context of the meeting with Maltoshi.
- Act (Tool 2 - Stripe): It goes into Stripe to create a product link for the proposal.
- Act (Tool 3 - Notion): It accesses Notion to set up a new project, pre-populating it with relevant details.
- Act (Tool 4 - Gmail): It drafts a comprehensive email, incorporating insights from the Granola notes, the Stripe payment link, and a clear call to action, all in the user’s preferred tone (from
agents.mdandmemory.md).
This entire process, which would typically involve switching between multiple tabs, copying and pasting information, and manually setting things up, is executed by the agent in minutes. “Even if you can just do something like seven times faster without having to go into all these tools, copy the meeting notes into the page to give it context on your meeting, it really starts to compound,” Remy emphasizes. “Then you start to fit like a week in a day and then 7 weeks in a week.”
Scaling Productivity: The Power of Skills (SOPs for AI)
The final layer of AI agent mastery lies in Skills. Remy describes skills as “SOPs for AI – Standard Operating Procedures for AI. It means once you explain something once, you never have to explain it ever again.”
Imagine you frequently create client proposals. Without skills, you might spend 15-30 minutes iterating with your agent, correcting formatting, adjusting pricing placement, and refining the language. Even with memory.md, these detailed, task-specific preferences can clutter the memory or be forgotten if you switch sessions.
A Skill packages this entire process into a dedicated markdown file. This skill file meticulously explains the exact steps, formatting requirements, and preferences for creating a proposal. Once created, every time you need a new proposal, you simply invoke the “create proposal” skill, and the agent executes it perfectly, consistently, and without further instruction.
Skills are distinct from memory.md because they are about encapsulating processes, not just preferences. They are specialized instruction sets for specific jobs to be done. Most agent harnesses now have a “skills” feature, often stored in hidden local folders (e.g., .claude/skills). You can create skills by manually writing the markdown file or by having a “skill creator” agent (a common feature in harnesses) interview you about a process and generate the skill file.
By automating three to five small manual processes each week with skills, you gradually build a comprehensive library of automated workflows, inching closer to automating your entire work life.
The 100x Employee: The Future of Work
The vision painted by Remy Gasill, and echoed by figures like Cody Schneider, is one where every employee comes into their role equipped with a pre-existing AI operating system. They will continuously build out skills for their manual processes, accumulating automated workflows until their entire work life is streamlined.
This isn’t about replacing human workers, but augmenting them into “100x employees” – individuals capable of achieving unprecedented levels of productivity and output by offloading repetitive tasks to their digital counterparts. The transition from simple chat models to sophisticated, context-aware, tool-integrated, and self-improving AI agents represents not just an evolution in technology, but a revolution in how we work and build businesses. The time to build your AI-powered department is now.
Based on “Why Scale Will Not Solve AGI | Vishal Misra - The a16z Show” from a16z Watch the original video
Beyond the Matrix: Why Scaling Won’t Deliver True AGI
The latest generation of large language models (LLMs) like Anthropic’s Claude and Google’s Gemini are nothing short of astonishing. They write code, generate compelling text, and even pass complex exams, leading many to believe that Artificial General Intelligence (AGI) is just around the corner, achievable simply by making these models larger and training them on more data. But what if that belief is fundamentally flawed? What if these powerful systems, despite their brilliance, are merely “grains of silicon doing matrix multiplication,” lacking the very essence of consciousness, inner monologue, or genuine causal understanding?
This provocative stance is at the heart of computer scientist Vishal Misra’s groundbreaking work, as explored in a recent episode of the a16z Show. Misra, a professor at Columbia University, argues that while LLMs are incredibly adept at a specific type of learning—Bayesian updating—they are inherently limited by their architecture and objective function. To reach true AGI, he contends, we need a paradigm shift, moving beyond mere correlation to embrace plasticity and causality.
From Cricket Stats to the Matrix of Minds
Misra’s journey into understanding LLMs began five years ago, fueled by a personal challenge. Granted early access to GPT-3, he sought to build a natural language interface for a massive cricket statistics database he had co-created years prior. He successfully employed a technique now widely known as Retrieval Augmented Generation (RAG), getting GPT-3 to translate natural language queries into a custom Domain Specific Language (DSL) that it had never seen before. The system, deployed at ESPN in 2021 (after an initial working prototype in October 2020), was “mind-blowing” in its effectiveness.
Yet, this success left Misra with a burning question: how did it work? Diving into the “attention is all you need” papers and other deep learning architectures, he found no satisfying answer. This led him to develop a mathematical model, conceptualizing an LLM as a “huge gigantic matrix.”
Imagine a matrix where every row corresponds to a unique prompt – “protein,” “protein shake,” “the cat sat on the…” – essentially every possible combination of tokens within the model’s context window. Each column, then, represents a probability distribution over the model’s entire vocabulary (around 50,000 tokens for models like GPT). Given a prompt, the LLM samples the next token from this posterior distribution.
This matrix, Misra explains, is astronomically large – “more than the number of electrons across all galaxies” – but also incredibly sparse. Most combinations of tokens are gibberish, and for any given prompt, only a few next tokens make sense. What LLMs effectively do, in Misra’s view, is create a compressed representation of this sparse matrix, approximating the true distribution for any given prompt.
In-Context Learning: A Bayesian Revelation
This matrix abstraction provided a crucial lens for understanding in-context learning, the seemingly magical ability of LLMs to “learn” from a few examples provided in the prompt itself. Misra demonstrated this with his cricket DSL. Initially, when shown a cricket question, GPT-3 would predict English words. But as he presented pairs of natural language queries and their corresponding DSL translations, the model’s “posterior probability” for DSL tokens would steadily rise. By the time a new, related query was given, the model would confidently generate the correct DSL, having updated its “belief” in real-time.
“This is an example of in real time the model was updating its posterior probability,” Misra clarifies. “It was upgrading its knowledge that okay, I’ve seen evidence, this is what I’m supposed to do.” He concluded that LLMs were performing a form of Bayesian updating – starting with a prior belief, seeing new evidence, and updating their posterior belief.
Initially, this claim met with skepticism from parts of the machine learning community, often caught in the historical “Bayesian vs. Frequentist” debate. Critics argued that Misra’s observations were merely empirical, not a rigorous mathematical proof.
The Bayesian Wind Tunnel: A Formal Proof
To unequivocally prove his hypothesis, Misra, along with colleagues Naman Agarwal and Siddharth Dalal, developed what they called the “Bayesian Wind Tunnel.” Just as an aerospace engineer tests an aircraft in an isolated environment, they created a controlled setting for LLM architectures.
“We took a blank architecture,” Misra explains, “and gave it a task where it’s impossible for the architecture to memorize what the solution to that task should be.” They used very small models, ensuring the task was difficult enough to prevent memorization but tractable enough that the precise Bayesian posterior could be calculated analytically.
The results were stunning: the transformer architecture “got the precise Bayesian posterior down to 10^-3 bits accuracy. It was matching the distribution perfectly.” Mamba models also performed well, while LSTMs and MLPs faltered. This experiment provided the mathematical proof that transformers, at their core, are indeed performing Bayesian inference. Further papers in the series explored why they do it (analyzing gradients and geometry) and showed these same “signatures” persisted in large, frontier models.
The Chasm: Why LLMs Aren’t Human (Yet)
Despite their impressive Bayesian capabilities, Misra draws a stark line between LLMs and human intelligence, identifying fundamental differences that scaling alone cannot overcome:
-
Plasticity vs. Frozen Weights: Human brains are incredibly plastic; our synapses constantly adapt and update throughout our lives based on new experiences. LLMs, however, have “frozen” weights once training is complete. During inference (like in-context learning), they perform Bayesian inference, but they “forget” everything from one conversation to the next. “Every invocation of it was fresh,” Misra notes of his cricket DSL system. “It did not remember the last time I sent a query what the DSL looked.”
-
Objective Functions: Humans are driven by primal objectives: “don’t die and reproduce.” Our brains have evolved to simulate dangers and react to preserve ourselves. LLMs, conversely, have a singular objective: “predict the next token as accurately as possible.” This objective is entirely a function of their training data. Misra dismisses fears of LLMs “deceiving” or “trying to survive,” attributing such behaviors to the models reflecting narratives found in their training data (e.g., Reddit stories about AI survival). “They don’t have consciousness. They don’t have an inner monologue. They’re not driven by the same objective function.”
-
Correlation vs. Causation: This is perhaps the most profound difference. Deep learning excels at association – finding correlations in vast datasets (what Misra equates to Shannon entropy). However, humans possess the ability for causation, which involves building causal models, performing interventions, and reasoning about counterfactuals (Judea Pearl’s causal hierarchy). This, Misra links to Kolmogorov complexity – the length of the shortest program that can reproduce a given string. While the Shannon entropy of Pi’s digits is infinite, its Kolmogorov complexity is very small because a short program can generate it. LLMs are stuck in the Shannon entropy world; they haven’t crossed over to Kolmogorov complexity or true causal understanding.
The Einstein Test: A High Bar for AGI
To illustrate this causal gap, Misra proposes the “Einstein Test” for AGI: “You take an LLM and train it on pre-1916 or 1911 physics and see if it can come up with the theory of relativity. If it does, then we have AGI.”
At the time of Einstein, many anomalies challenged Newtonian mechanics: Mercury’s orbit, the Michelson-Morley experiments, and early ideas about black holes. An LLM, adept at finding correlations, would see all this “evidence” and treat the discrepancies as “anomalies.” But it would not, Misra argues, “come up with the beautiful equation that Einstein came up with.”
Einstein’s genius wasn’t in correlating existing data; it was in creating a new representation – a new “manifold” of spacetime that fundamentally changed the axioms. “If you just stuck with the old manifold of the Newtonian physics,” Misra explains, “then you would see these correlations but you could not come up with a manifold that explained them. So you need to come up with a new representation.”
This concept was recently highlighted by Donald Knuth’s viral experience using LLMs to solve a problem involving Hamiltonian cycles. While the LLMs were incredibly efficient at finding connections and solutions within the existing mathematical manifold (the “Shannon part”), it was Knuth, the human, who ultimately had to synthesize these findings into a new proof, effectively creating the “new manifold.” The LLMs got “stuck” at a certain point; they couldn’t generate the novel, underlying causal model.
The Path Forward: Plasticity and Causality
For Misra, the path to AGI lies not in simply scaling up current architectures, but in tackling these two fundamental problems:
-
Plasticity (Continual Learning): Developing architectures that can learn new information without “catastrophic forgetting” of previous knowledge. This requires a mechanism for dynamic weight updates that mimics the human brain’s lifelong adaptability.
-
Causality (Moving from Correlation to Intervention): Building models that can understand causal relationships, perform simulations, and reason about “what if” scenarios. This involves moving beyond association to the higher levels of Judea Pearl’s causal hierarchy.
“Scale will not solve everything,” Misra asserts. “You need a different kind of architecture.” LLMs, he believes, are “definitely part of the solution,” but they are not the entire solution. They represent a powerful tool for correlation, for navigating existing manifolds of knowledge. But to truly generate new knowledge, to conceive of new representations of reality, and to exhibit genuine intelligence, a fundamental shift in our approach to AI architecture is required. The next frontier in AI, Misra concludes, lies in cracking the code of plasticity and causality, moving beyond the matrix of correlations to build machines that can truly understand, adapt, and innovate.
Based on “Chosen by War: The Rise of Iran’s New Supreme Leader” from New York Times Podcasts Watch the original video
Game of Thrones in Tehran: The Unforeseen Rise of Iran’s New Supreme Leader
The news broke with a defiant roar: Iran’s new Supreme Leader, Mushtaba Hami, the son of the recently assassinated ruler, had spoken. His first statements left no room for doubt or hope of de-escalation. “Avenging the blood of your martyrs is a top priority,” he declared, promising continued attacks on Gulf Arab neighbors and demanding the immediate closure and eventual assault on all U.S. bases in the region. He even affirmed the closure of the Strait of Hormuz. This hardened stance, coming in the midst of a devastating war with the United States and Israel, signaled a new, potentially more perilous, era for Iran and the Middle East.
But the ascent of Mushtaba Hami was far from a straightforward transition. It was, as described by New York Times reporter Farnaz Fassi, an “extraordinary behind-the-scenes jockeying,” a veritable “Game of Thrones” that defied the very spirit of the Islamic Revolution and ultimately saw Iran, driven by the pressures of war, replace one hardline leader with another.
A Revolution’s Irony: Power from Father to Son
Mushtaba Hami’s selection came as a surprise even to seasoned Iran watchers and insiders. While he had worked closely in his father’s office, his succession was not considered predestined. This outcome carries a profound irony: the 1979 Islamic Revolution was born from a movement to dismantle thousands of years of monarchy, explicitly rejecting the transfer of power from father to son. Even after the death of Ayatollah Ruhollah Khomeini, the revolution’s founding father, the leadership passed not to his son, but to the then-president, Ayatollah Ali Khamenei. For Mushtaba, the son of the late Supreme Leader, to now inherit the mantle, is, by many accounts, a direct violation of the revolution’s core anti-monarchical ethos.
The process that led to this unexpected outcome unfolded over several intense days, described by sources in Iran as a “succession war.” Various political factions, powerful generals from the Revolutionary Guards, influential figures like the former spy chief, and senior clerics engaged in a fierce struggle, each vying to install their preferred candidate in the nation’s most critical and, arguably, most dangerous job.
The Factions at Play: Moderates vs. Hardliners
Constitutionally, the responsibility of appointing, supervising, and removing a Supreme Leader falls to the Assembly of Experts, a body of 88 elected senior clerics. However, the real battle took place through back-channeling and intense lobbying, as powerful factions sought to sway the clerics’ votes.
On one side were the moderates and pragmatics, a camp led by figures such as the head of the National Security Council, Ali Larijani, and President Pezeshkan. Their argument was rooted in the extraordinary circumstances facing Iran: a country at war with the United States and Israel, and grappling with months of internal upheaval, including massive street protests demanding an end to the regime. The moderates believed this power vacuum, created by the assassination, presented an opportunity to steer the country in a new direction. They advocated for a “new face” for the regime, a candidate who would signal to both the international community and the Iranian public a willingness to moderate policies or pursue reforms.
Among their preferred candidates were:
- Hassan Rouhani: A centrist politician who served eight years as president and held senior security roles, known for leading the 2015 nuclear negotiations. He had become increasingly vocal about the unsustainability of the status quo.
- Hassan Khomeini: The grandson of the revolution’s founding father, squarely identified with the reformist faction.
- Ali Reza Arafi: A less publicly known figure with strong religious credentials, considered by some as an easily manageable candidate due to his limited experience in security or policy.
These candidates, to varying degrees, represented a desire to “turn the page” on the hardline revolutionary ethos that had dominated Iran since 1979. While still loyal to the Islamic Republic’s ideology, they offered a pragmatic approach, potentially open to scaling down hostilities with the United States.
However, standing in staunch opposition were the hardline factions, particularly the powerful Revolutionary Guards Corps. For them, wartime was not a moment for concessions or surrender to U.S. demands. Their priority was to ensure the continuity of the policies and strategies defined by the late Supreme Leader and the Guards themselves. The Revolutionary Guards, a dominant force in Iran’s political, economic, and military spheres, viewed the selection of the Supreme Leader as an existential choice, crucial for maintaining their grip on power, especially as they commanded the ongoing war.
This hardline pool unanimously backed Mushtaba Hami. They saw him as a close ally, a reincarnation of his father who would continue his policies and grant the Guards a free hand, particularly in prosecuting the war. For them, the constitutional formality of rejecting hereditary power was secondary to the immediate needs of wartime and the desire for defiance. They argued that the assassination of their leader, whom they considered a martyr, necessitated the closest possible successor—his son, who not only bore a physical resemblance but also shared his ideological beliefs and policies.
The Dramatic Showdown: A Will Revealed
The process of selecting the Supreme Leader began almost immediately after the late leader was killed in air strikes on the first day of the war. Fueled by a sense of defiance, the Assembly of Experts, after back-channeling and influence peddling, initially chose Mushtaba as the frontrunner. A vote was cast, and the government was informed of the decision, with plans to announce it on state television the next morning.
But the plan unraveled. As news of Mushtaba’s emergence as a leading candidate leaked (a New York Times scoop), both U.S. President Donald Trump and Israel’s Defense Minister issued threats to “eliminate the next successor.” This external pressure caused the Iranians to pause, fearing that an immediate announcement could endanger Mushtaba’s life.
This pause provided a critical window for the moderates to launch an offensive. They saw an opportunity to convince the Assembly to rescind its vote. If the U.S. and Israel were threatening a hardline successor, didn’t that strengthen the case for moderation?
The moderates convened a meeting with the Assembly’s leadership council and presented a bombshell. They brought two of the late leader’s closest aides – his chief of staff and a top senior military advisor – to testify. These trusted confidantes claimed that the late leader had explicitly stated he did not want his son to succeed him. As if that weren’t enough, they then produced a sealed letter, allegedly his will, which, upon being unsealed, reportedly stated, “I don’t want any of my family members to become the Supreme Leader.” This was a direct challenge to Mushtaba’s legitimacy, presented as the “word of God” from the revered former leader himself.
The hardliners and Revolutionary Guards generals, hearing of this audacious counter-offensive, mobilized swiftly. Generals and figures like Hussein Taib, the former intelligence chief of the Guards, personally called Assembly members, urging them to meet virtually for an emergency vote. Their aim was to solidify Mushtaba’s position before the moderates could gain further ground. On Sunday, March 8th, the Assembly held a final vote, and Mushtaba Hami secured the two-thirds majority he needed. This time, the deal was sealed, and the announcement made.
The consensus among experts is clear: had Iran not been at war, had its leader not been killed by air strikes, Mushtaba’s path to power would have faced insurmountable resistance. The unique circumstances of conflict and perceived martyrdom paved his way.
Who is Mushtaba Hami? A Figure of Shadows and Power
Mushtaba Hami remains a mysterious figure, having always operated in the shadows of power. Since his appointment, he has maintained a public silence, issuing only two written statements, with no public appearances or speeches. Yet, insights from sources in Iran who know him or have met him offer a glimpse into the man now leading the nation.
Born in 1969, Mushtaba was just nine years old when the Islamic Revolution established the theocracy. He grew up immersed in the ideological and religious fervor of the revolution’s early years, witnessing its institutionalization from an abstract idea to a day-to-day government. His participation went beyond observation. At 17, he volunteered as a soldier in the bloody 8-year Iran-Iraq War, fighting alongside many who now form the senior leadership of Iran’s military. This battlefield experience earned him “street cred” and forged powerful alliances, making him a veteran in a way the son of a powerful leader might not have needed to be.
After the war, he moved to Qom, a center of Shia seminaries, to study and become a Shia jurist and cleric. He climbed the ranks of the religious hierarchy, teaching advanced Islamic jurisprudence, a level of religious instruction only accessible to advanced clerics. His classes in Qom were reportedly popular, suggesting a certain charisma.
Eventually, he moved to Tehran and entered his father’s close political circle, managing security and military administrative matters within his office. He forged particularly strong alliances with figures like Hussein Taib, the former Revolutionary Guards intelligence chief, and General Mohammad Bagher Ghalibaf, a powerful Guards commander who is now the speaker of parliament. According to sources, these three would meet weekly to strategize on policies, from electoral outcomes to crackdowns on dissidents and other state security matters.
A chilling example of his behind-the-scenes influence, pointed out by many sources, is his alleged role in the 2009 presidential election. When former President Mahmoud Ahmadinejad was declared the victor amid widespread accusations of a rigged election, sparking the “Green Movement” protests, Mushtaba is said to have played a role in the alleged rigging and in orchestrating the brutal crackdowns that followed, particularly through his ties to the Basij paramilitary militia. This history solidified his image as “their guy” for the hardliners. Indeed, Mushtaba’s rise mirrors the Revolutionary Guards’ increasing control over Iran’s political, military, and economic landscape.
His continued public silence since becoming Supreme Leader is baffling to many. According to reporting, there are two primary reasons: first, he is reportedly injured, at least in his legs, and may not be in top physical condition for public appearances. Second, and perhaps more critically, Iranians are keenly aware that he is likely “number one on Israel’s target list,” and fear that a public video could allow for geo-location and assassination.
A Hardline Future: Revenge and Defiance
All evidence points to Mushtaba Hami being a deeply entrenched hardliner, unlikely to pivot towards reform. His life journey – from his military service and crackdowns on demonstrators to the assassination of his father by the U.S. and Israel – collectively suggests a leader driven by a strong sense of revolutionary ideology and a desire for vengeance.
His initial written statements confirm this. He explicitly stated that Iran’s military forces would continue to strike at regional countries aiding the American military and affirmed that all his father’s political and military appointments and directives would remain in place. This signals a clear intention to continue the previous leader’s policies and wartime strategy.
While some supporters attempt to portray him as a “Muhammad bin Salman figure” – a progressive who, despite his hardline appearance, might be the only one capable of de-escalating hostilities with the U.S. and convincing hardliners of a ceasefire – there is no evidence to support this. All available information points in the opposite direction.
The outcome presents a profound irony: many in Iran believe that the United States and Israel, by seeking to eliminate and overthrow the regime’s leadership, have inadvertently given Iran precisely the leader they sought to avoid. Their actions may have solidified the power of an even more hardline figure.
For the 80% of Iranians who, at the outset of the war, harbored a fleeting hope for change and an opening up of their country, Mushtaba Hami’s elevation is a devastating blow. That moment of hope, once real, has been brief. As Iran enters the third week of war, with no signs of policy change or major concessions, Iranians find themselves under relentless bombing and air strikes. Hope has been replaced by fear and anxiety, with nightly reports of louder, closer explosions echoing across the nation. The “chosen by war” leader now presides over a country gripped by uncertainty, its future inextricably linked to a path of defiance and confrontation.
한국어
“Your life needs more ‘existential grit.’ Here’s how to find it | Kate Bowler” — Big Think 기반 기사 원본 영상 보기
행복 너머, 고통 속에서도 빛나는 ‘존재적 끈기’를 찾는 법: 케이트 볼러의 기쁨론
우리는 흔히 행복과 기쁨을 같은 감정으로 오해합니다. 하지만 고통스러운 현실 속에서도 삶을 긍정하게 만드는 진정한 힘은 ‘행복’이 아닌 ‘기쁨’에 있다고 역설하는 이가 있습니다. 바로 역사가이자 팟캐스터, 작가인 케이트 볼러(Kate Bowler)입니다. 그녀는 운, 의미, 그리고 삶을 아름답게 만드는 요소들을 연구하며, 특히 기쁨이 가진 놀라운 힘에 주목합니다. 볼러는 기쁨을 “존재적 끈기(existential grit)“라고 부르며, 가장 힘든 시기에도 우리를 지탱하고 앞으로 나아가게 하는 깊은 감정이라고 설명합니다.
행복은 취약하고, 기쁨은 고통과 공존한다
케이트 볼러는 행복과 기쁨을 혼동하는 가장 큰 이유가 두 감정 모두 긍정적인 스펙트럼에 속한다고 생각하기 때문이라고 지적합니다. 특히 미국 사회는 ‘행복 산업(happiness industry)‘이라는 거대한 시장이 존재할 정도로 행복에 대한 강박적인 집착을 보입니다. 행복은 종종 웰빙, 자기 관리, 번영, 그리고 심지어 ‘같은 색 청바지를 입은 아이들’ 같은 완벽한 이미지로 그려집니다.
하지만 심리학자들은 행복과 기쁨을 명확하게 구분합니다. 행복은 다음과 같은 특징을 가집니다:
- 정의 가능한 특성: 편안함, 심리적으로 이완된 상태를 의미합니다.
- 상황적이고 누적적: 모든 일이 잘 풀릴 때 발생하며, 좋은 경험들이 쌓여 만들어집니다.
- 매우 취약함: 단 한 가지라도 잘못되면 행복의 전체적인 분위기가 쉽게 무너질 수 있습니다.
반면 기쁨은 훨씬 더 복잡한 감정입니다. 볼러는 “즐겁고 슬플 수는 있지만, 행복하고 슬플 수는 없습니다. 이것이 사람들이 기쁨을 종종 혼란스러워하는 이유입니다”라고 말합니다. 기쁨은 뇌의 도파민(dopamine)과 같은 긍정적인 화학 반응뿐만 아니라 스트레스 시스템, 어두운 감정, 절망, 막대한 고통과도 공존합니다. 이는 기쁨이 현실의 고통에서 벗어나게 해주는 것이 아니라, 그 위에 또 다른 층을 더하는 것임을 의미합니다.
개인적인 시련 속에서 찾은 ‘존재적 끈기’
케이트 볼러는 한때 ‘매우 운이 좋은 사람’이었습니다. 수년간의 불임 끝에 간절히 바라던 아기를 얻었고, 듀크 대학교(Duke University)에서 꿈에 그리던 직업을 가졌습니다. 역사학자가 되어 책과 가고일, 감사하는 학생들에게 둘러싸여 연구하는 것이 그녀의 오랜 꿈이었고, 고등학교 시절부터 사귄 연인과 결혼하며 삶이 드디어 보상받는다고 느꼈습니다.
그러나 그녀에게는 곧 파괴적인 불운의 시기가 찾아왔습니다. 오랜 기간 치료를 애원한 끝에 4기 암 진단을 받게 된 것입니다. 이 시련을 겪으면서 그녀는 단순히 행복만으로는 충분하지 않다는 것을 깨달았습니다. 삶을 이전과 같은 방식으로 더 이상 합산할 수 없게 되자, 그녀는 보다 “존재적으로 끈기 있는(existentially gritty)” 무언가가 필요했고, 그것이 바로 ‘기쁨’이었습니다.
기쁨의 놀라운 변화 능력: 삶을 긍정하게 만드는 힘
기쁨은 단순히 달콤하고 짧게 스쳐 지나가는 감정이 아닙니다. 그것은 우리를 변화시키는 엄청난 잠재력을 가지고 있습니다.
- 감사함과 희망: 기쁨은 우리를 더 감사하고 희망적으로 만듭니다.
- 즐거움과 웃음: 우리를 기쁘게 하고 웃게 만듭니다.
- 존재론적 긍정(existential yes): 삶이 최악일 때에도 여전히 사랑할 가치가 있음을 상기시켜주는 위대한 긍정입니다.
- 새로운 시각: 현실을 새로운 눈으로 바라보게 하며, “그 모든 것을 보면서도, 어떻게든 여전히 좋다고 느끼는 것”을 가능하게 합니다.
기쁨은 산산조각 난 모든 조각들을 하나로 묶어주면서도 동시에 웃음을 터뜨리게 하는 특별한 힘을 가지고 있습니다. 이것이 바로 볼러가 기쁨을 연구하는 가장 흥미로운 이유라고 말하는 지점입니다.
‘기쁨’의 영적, 심리적 차원
기쁨은 특히 기독교 전통에서 신성한 선물(divine gift)로 특별한 의미를 가집니다. 신앙인들이 ‘초월(transcendence)‘이라고 묘사하는, 자기 자신을 넘어선 순간이 바로 기쁨입니다. 심리적으로도 기쁨은 깊은 유대감을 형성하는 감정입니다. 다른 사람들과 깊이 연결되어 있다고 느끼게 하며, 영적인 존재나 신과도 연결되어 있다고 느끼게 할 수 있습니다.
기쁨은 영적으로, 심리적으로, 그리고 공동체적으로 가능성에 마음을 열게 합니다. 볼러는 기쁨을 “화합할 수 없어 보이는 경험들을 하나로 묶어주는 완전한 패키지”라고 표현합니다. 고통과 행복, 상실과 성장을 동시에 품을 수 있는 감정이라는 의미입니다.
기쁨을 위한 전제 조건들: ‘경험적으로 놀라움을 받아들일 준비’
우리가 ‘기계적인 자아’로서 살아가기 위해 필요한 조건들과는 반대로, 기쁨을 위한 전제 조건들은 다소 이질적입니다. 볼러는 기쁨을 위한 가장 강력한 전제 조건 중 하나로 **정서적 개방성(emotional availability)과 연결(connection)**을 꼽습니다.
또한, 놀라움을 받아들일 준비가 된 사람이 기쁨을 찾을 가능성이 훨씬 높습니다. 볼러는 우리가 더 기쁨이 넘치는 사람이 되기를 원한다면, “휴대전화를 내려놓고 노트북을 닫은 다음, 우리 자신을 ‘경험적으로 놀라움을 받아들일 준비가 된(experientially surprisable)’ 존재로 생각해야 할 것”이라고 조언합니다. 이는 의식적으로 주변 환경과 사람들에게 마음을 열고, 예상치 못한 순간에 찾아올 수 있는 작은 기쁨들을 환영할 준비가 되어야 함을 의미합니다.
기쁨은 삶의 ‘이야기’이자 ‘끈기’이다
행복이 단지 하나의 감정적인 상태라면, 기쁨은 하나의 ‘이야기’입니다. 그것은 “영혼 깊은 곳에서 살아있다는 것, 여기 있다는 것, 남아있는 모든 것을 가지고 다시 일어서는 것이 좋다고 느끼는 감정”입니다. 기쁨은 우리를 가장 밑바닥에서 가장 높은 곳으로 끌어올릴 수 있으며, 이를 가능하게 하는 가장 중요한 요소는 바로 ‘사랑’입니다.
많은 사람들이 기쁨을 행복의 ‘추가 레벨’ 정도로 오해하지만, 볼러는 이는 큰 오해라고 강조합니다. 우울증으로 고통받는 사람, 막대한 슬픔에 잠긴 사람, 삶에 깊이 지루함을 느끼는 사람 모두에게 기쁨은 분명히 존재합니다. 기쁨이 감정적이면서도 존재론적(existential)이라는 점이 바로 기쁨을 끈기 있고 현실적이며 우리를 지탱해 줄 수 있는 것으로 만드는 이유입니다.
케이트 볼러의 통찰은 우리에게 삶의 고통스러운 순간들을 외면하지 않고, 오히려 그 속에서 더욱 깊은 의미와 힘을 찾을 수 있는 길을 제시합니다. 행복을 좇는 대신, 고통과 공존하며 우리를 성장시키는 ‘존재적 끈기’로서의 기쁨을 받아들일 때, 우리는 삶을 진정으로 사랑하고 그 어떤 역경 속에서도 굳건히 설 수 있는 내면의 힘을 발견하게 될 것입니다.
“The Rise of the Dictater” — Every 기반 기사 원본 영상 보기
생각의 속도로 말하라: AI 시대, ‘음성 독재자’의 부상
키보드 앞에서 손가락이 꼬이고, 머릿속 생각과 손끝 입력 속도 사이의 괴리에 답답함을 느꼈던 경험은 많은 이들에게 익숙할 것입니다. 아이디어가 샘솟듯 떠오르지만, 이를 문자로 옮기는 과정에서 발생하는 물리적 한계와 입력 지연(Input Lag)은 창작의 흐름을 방해하곤 합니다. 하지만 상상해 보셨나요? 생각의 속도 그대로 말을 통해 아이디어를 쏟아내고, 그 모든 것이 완벽한 텍스트로 변환되는 세상을요. 인공지능(AI) 기술의 비약적인 발전은 이러한 상상을 현실로 만들고 있으며, 우리는 이제 ‘음성 독재자(Dictater)‘의 시대에 진입하고 있습니다.
키보드의 한계를 넘어선 ‘음성 독재자’
여기서 말하는 ‘독재자(Dictater)‘는 흔히 생각하는 정치적 의미의 독재자가 아닙니다. 이 용어는 자신의 생각을 가장 빠르고 효율적으로 ‘말’로 전달하여, 아이디어 생산과 소통의 주도권을 쥐는 사람을 의미합니다. 트랜스크립트에서 언급된 인물 ‘나빈(Naveen)‘처럼, 이들은 키보드에 갇힌 채 손가락 경련이나 입력 지연으로 고통받는 대신, 음성을 통해 머릿속 아이디어를 가장 자연스러운 형태로 표현합니다.
우리가 말하는 속도는 타이핑 속도보다 훨씬 빠릅니다. 머릿속에서 형성된 생각은 별다른 여과 없이 바로 입 밖으로 나올 수 있죠. “아, 바로 그거야!” 하고 무릎을 탁 치게 되는 순간처럼, 음성 입력은 생각과 표현 사이의 간극을 거의 없애줍니다. 이는 단순히 시간을 절약하는 것을 넘어, 사고의 흐름을 방해받지 않고 온전히 몰입(stay in flow)하여 아이디어를 발전시킬 수 있다는 점에서 혁명적입니다.
AI가 이끄는 ‘음성 독재자’의 시대
과거의 음성 인식 기술은 부정확하고 번거로워 널리 활용되지 못했습니다. 인식률이 낮아 여러 번 수정해야 했고, 특정한 발음이나 억양에는 취약했습니다. 하지만 최근 몇 년간 인공지능, 특히 자연어 처리(Natural Language Processing, NLP) 기술의 발전은 이러한 패러다임을 완전히 바꾸어 놓았습니다.
AI는 이제 단순히 음성을 텍스트로 변환하는 것을 넘어, 화자의 억양, 문맥, 심지어 감정까지 이해하려 노력합니다. 기계 학습(Machine Learning)을 통해 사용자 개개인의 발화 습관을 학습하여 정확도를 지속적으로 높여나가며, 다양한 언어와 전문 분야(disciplines)의 용어까지 능숙하게 처리할 수 있게 되었습니다. 이러한 AI 기술의 개선은 음성 입력 도구의 활용성을 극대화하고 있으며, 앞으로 전 세계적으로 ‘음성 독재자’의 수가 급증할 것으로 예상됩니다. 이들은 더 이상 키보드에 얽매이지 않고, 오로지 자신의 목소리만으로 아이디어를 창조하고 공유하며, 생산성을 극대화할 것입니다.
‘Every’의 ‘모놀로그’: 미래를 현실로 만드는 도구
이러한 미래를 현실로 만드는 선두 주자 중 하나로 ‘Every’ 채널에서 소개하는 ‘모놀로그(monologue)‘와 같은 AI 기반 도구를 들 수 있습니다. ‘모놀로그’는 단순한 받아쓰기를 넘어, ‘음성 독재자’들이 진정으로 필요로 하는 기능을 제공합니다.
- 지능형 학습: 사용자의 음성을 지속적으로 학습하여 정확도를 높이고, 개인화된 받아쓰기 경험을 제공합니다.
- 다국어 및 다분야 지원: 다양한 전문 분야와 언어를 넘나들며 내용을 전사(transcribe)하고 번역(translate)할 수 있어, 글로벌 협업이나 다국어 콘텐츠 제작에 필수적인 도구가 됩니다.
- 맥락 기반 출력 형식 조정: 가장 혁신적인 기능 중 하나는 바로 ‘맥락에 맞춰 출력 형식을 조정(adjusting its output format to match your context)‘하는 능력입니다. 예를 들어, 회의록을 작성할 때는 핵심만 요약된 형식으로, 블로그 게시물을 쓸 때는 문어체 형식으로, 스크립트를 만들 때는 대화체 형식으로 자동으로 변환해 줄 수 있습니다. 이를 통해 사용자는 형식에 대한 고민 없이 오로지 아이디어 구상에만 집중하며 ‘몰입(stay in flow)’ 상태를 유지할 수 있습니다.
‘모놀로그’와 같은 도구는 우리가 글을 쓰고, 생각하고, 소통하는 방식을 근본적으로 변화시킬 잠재력을 가지고 있습니다. 아이디어를 떠올리는 순간부터 최종 결과물이 나오기까지의 모든 과정에서, 인간의 사고와 기계의 처리 능력이 유기적으로 결합되는 것입니다.
당신도 ‘음성 독재자’가 될 준비가 되었는가?
이제 더 이상 손가락의 한계에 갇히지 말고, 당신의 생각을 말의 힘으로 자유롭게 펼쳐 보세요. ‘음성 독재자’가 되는 것은 단순히 생산성을 높이는 것을 넘어, 당신의 창의력과 소통 방식을 근본적으로 변화시킬 기회가 될 것입니다.
AI 기술의 최전선에서 당신의 잠재력을 최대한 발휘하고 싶다면, ‘Every’에서 제시하는 ‘모놀로그’와 같은 혁신적인 AI 도구에 주목할 필요가 있습니다. 생각의 속도로 말하고, 말하는 대로 이루어지는 미래. 당신도 그 미래의 ‘음성 독재자’가 될 준비가 되셨습니까? 이 놀라운 여정에 동참하여, 당신의 목소리로 세상을 움직이는 경험을 시작할 때입니다.
“Build a team of AI Agents to run your business” — Greg Isenberg 기반 기사 원본 영상 보기
AI 에이전트: 비즈니스 생산성을 10배 높이는 미래의 업무 방식
AI는 여전히 많은 사람에게 혼란스럽고 복잡한 영역입니다. ‘LLM’, ‘에이전트 하네스’, ‘MCP’와 같은 수많은 전문 용어들은 일반 사용자들이 AI 기술에 쉽게 접근하는 것을 어렵게 만듭니다. 하지만 AI 기술의 최전선은 이미 챗봇(Chatbot)을 넘어 ‘AI 에이전트(AI Agent)’ 시대로 진입하고 있으며, 이를 활용하는 기업과 개인은 엄청난 생산성 격차를 만들어내고 있습니다.
Greg Isenberg 채널의 팟캐스트에서 Remy Gasill은 이러한 AI 에이전트의 복잡한 개념을 가장 단순하고 명확하게 설명합니다. 그는 AI 에이전트를 마스터하는 무료 강좌의 핵심 내용을 바탕으로, 초보자도 AI 에이전트를 활용하여 개인과 비즈니스의 생산성을 10배 이상 끌어올릴 수 있는 구체적인 방법을 제시합니다. 이 글은 그의 설명을 토대로, AI 에이전트의 작동 원리부터 실제 구축 방법, 그리고 미래의 업무 방식까지 심층적으로 탐구합니다.
챗봇을 넘어선 AI 에이전트: 목표 달성을 위한 자율적 실행자
현재 많은 사람들이 여전히 챗GPT(ChatGPT)나 클로드(Claude)와 같은 챗봇 모델을 활용하고 있지만, Remy는 AI 환경이 이미 ‘채팅’에서 ‘에이전트’ 단계로 진화하고 있다고 강조합니다. 그는 에이전트를 활용하는 창업가와 직원들이 기존 방식보다 10배에서 20배 더 생산적이라고 단언합니다. 이러한 생산성 격차는 시간이 지남에 따라 엄청난 경쟁 우위로 작용할 것입니다.
AI 에이전트의 핵심은 챗봇과의 근본적인 차이에 있습니다.
- 챗봇(Chat Model): ‘질문-답변(Question to Answer)’ 방식입니다. 사용자가 질문하면 AI가 답변하고, 다음 작업은 다시 사용자의 몫입니다. 마치 탁구처럼 질문과 답변을 주고받는 방식입니다.
- AI 에이전트(AI Agent): ‘목표-결과(Goal to Result)’ 방식입니다. 사용자에게 목표를 받으면, 에이전트가 스스로 작업을 계획하고 실행하며 최종 결과를 도출합니다. 사용자는 단순히 목표를 제시하고 결과를 기다리면 됩니다.
Remy는 이를 “AI에게 작업을 지시하면, AI가 작업을 계획하고 실행한 후 당신에게 결과를 전달하는 것”이라고 설명합니다.
AI 에이전트의 핵심 작동 원리: ‘에이전트 루프’와 4가지 구성 요소
AI 에이전트가 목표를 달성하는 과정에는 ‘에이전트 루프(Agent Loop)‘라는 핵심적인 메커니즘이 작동합니다. 이 루프는 다음 세 단계로 구성됩니다.
- 관찰(Observe): 에이전트는 사용자의 프롬프트(명령)와 작업 공간에 있는 파일, 과거의 상호작용 등 모든 관련 정보를 수집하고 관찰합니다.
- 사고(Think): 관찰된 정보를 바탕으로 다음 단계에 대해 추론하고 계획을 수립합니다.
- 행동(Act): 수립된 계획에 따라 외부 도구를 사용하거나 코드를 작성하는 등의 행동을 실행합니다.
이 세 단계는 에이전트가 작업을 완료했다고 판단할 때까지 끊임없이 반복됩니다. 예를 들어, “Greg Eisenberg를 위한 미니멀리스트 포트폴리오 사이트를 만들어줘”라는 명령을 받으면, 에이전트는 다음과 같이 작동합니다.
- 관찰: 프롬프트 수신. 작업 공간에 Greg Eisenberg 관련 파일이 있는지 확인.
- 사고: “Greg Eisenberg가 누구지? 정보를 찾아야겠어.”
- 행동: Greg Eisenberg에 대한 정보를 웹에서 리서치합니다.
- (루프 반복)
- 관찰: Greg에 대한 리서치 결과가 추가됨.
- 사고: “이제 Greg가 누군지 알았으니 웹사이트 구축 계획을 세워야겠어.”
- 행동: 웹사이트 구축 계획을 작성합니다.
- (루프 반복)
- 관찰: 계획이 추가됨.
- 사고: “이제 계획이 있으니 코드를 작성해야겠어.”
- 행동: 웹사이트 코드를 작성합니다.
이러한 루프는 사용자가 프롬프트에 설정한 매개변수(예: “10개의 출처를 취합하고 파워포인트 보고서를 작성하라”)가 충족될 때까지 계속됩니다.
에이전트는 이 루프를 실행하기 위해 다음 네 가지 핵심 구성 요소를 필요로 합니다.
- LLM (Large Language Model): 에이전트의 ‘두뇌’ 역할을 합니다. 클로드 오푸스(Claude Opus), GPT-5.4, 제미니 3(Gemini 3) 등과 같은 모델이 여기에 해당합니다.
- 루프(Loop): 위에서 설명한 ‘관찰-사고-행동’ 과정을 반복하여 작업이 완료될 때까지 멈추지 않고 지속하는 기능입니다.
- 도구(Tools): 이메일, 캘린더, 웹 브라우저 등 외부 애플리케이션과 연결하여 데이터를 가져오거나 작업을 수행합니다.
- 컨텍스트(Context): 에이전트가 작업을 이해하고 실행하는 데 필요한 배경 정보와 지식입니다.
이러한 에이전트 루프를 촉진하고 구성 요소를 연결하는 플랫폼을 ‘에이전트 하네스(Agent Harness)‘라고 부릅니다. 클로드 코드(Claude Code), 코드엑스(Codeex), 안티그래비티(Anti-Gravity), 오픈 클로(Open Claw), 매니스(Manis) 등 시중에 나와 있는 인기 있는 AI 에이전트 플랫폼들은 모두 에이전트 하네스에 해당합니다. Remy는 이들을 “서로 다른 자동차”에 비유하며, “운전 방법을 알면 어떤 차(하네스)든 운전할 수 있다”고 설명합니다.
실제 에이전트 구축 시연: Greg Isenberg 포트폴리오 사이트
Remy는 실제로 클로드 코드, 코드엑스, 안티그래비티 세 가지 에이전트 하네스에서 “Greg Eisenberg를 위한 미니멀리스트 포트폴리오 사이트를 만들어줘”라는 동일한 프롬프트를 실행하는 시연을 보여줍니다.
- 작동 방식: 각 하네스는 사용자가 지정한 로컬 폴더(예:
demo1,demo2)에서 작업을 수행합니다. 클로드 코드의 경우, 에이전트가 Greg Eisenberg를 리서치하기 위해 퍼플렉시티(Perplexity)를 도구로 사용하는 등 ‘에이전트 루프’가 실시간으로 시각화되어 표시됩니다. - 보안: Greg은 이러한 다양한 제품의 보안에 대해 질문합니다. Remy는 기본적으로 이들 하네스가 대기업에 의해 구축되어 매우 안전하다고 설명합니다. 하지만 에이전트에 부여하는 ‘접근 권한(tool permissions)‘을 적절히 설정하여, 만약의 사태에 대비해 최소한의 피해만 발생하도록 통제하는 것이 중요하다고 강조합니다. 예를 들어, 광고 예산을 관리하는 에이전트에게는 읽기 전용(read-only) 권한만 부여하는 식입니다.
- 결과 비교: 시연 결과, 세 에이전트 모두 프롬프트에 따라 미니멀리스트 포트폴리오 사이트를 성공적으로 생성했습니다. 비록 이메일 주소나 거주지 정보 등 세부적인 내용에 약간의 오류가 있었지만, 전반적으로 “꽤 잘했다”는 평가를 받았습니다. 특히 클로드 코드는 루프의 각 단계를 시각적으로 보여주며 에이전트의 사고 과정을 명확히 드러냈습니다.
이 시연은 에이전트가 단순히 질문에 답하는 것을 넘어, 목표를 이해하고 외부 도구를 활용하며 자율적으로 작업을 실행하는 능력을 명확히 보여줍니다.
나만의 ‘AI 비서’ 만들기: 컨텍스트, 메모리, 도구 연결
Remy는 이러한 에이전트의 잠재력을 활용하여 개인의 ‘AI 비서(Executive Assistant)‘를 만드는 과정을 단계별로 설명합니다. 이는 실제 직원을 온보딩(Onboarding)하는 과정과 유사합니다. 실제 비서를 고용할 때 비즈니스 정보, 고객, 사용하는 도구 등을 설명해야 하는 것처럼, AI 에이전트에게도 동일한 정보가 필요합니다.
1단계: 컨텍스트 부여 (agents.md 파일)
챗봇과 달리 AI 에이전트는 기본적으로 ‘기억’을 가지고 있지 않습니다. 챗봇이 사용자의 과거 대화를 클라우드에 자동으로 저장하여 기억하는 것과 달리, 에이전트는 사용자가 직접 컨텍스트(맥락)를 설정해줘야 합니다. 이는 단점이 아닌 장점입니다. 챗봇의 자동 기억은 불필요한 정보까지 끌어와 답변의 품질을 떨어뜨릴 수 있지만, 에이전트는 사용자가 원하는 정확한 컨텍스트만 제공할 수 있기 때문입니다.
agents.md파일: 이 파일은 에이전트의 ‘시스템 프롬프트(System Prompt)’ 역할을 합니다. 역할(Role), 비즈니스 정보, 작업 선호도, 사용하는 도구 등에 대한 정보를 담아 에이전트가 항상 참조할 수 있도록 합니다.- 컨텍스트 엔지니어링: 과거에는 ‘프롬프트 엔지니어링’이 중요했지만, 이제는 에이전트에게 얼마나 풍부하고 정확한 컨텍스트를 제공하는지에 달려 있는 ‘컨텍스트 엔지니어링’이 중요해졌습니다.
agents.md파일에 충분한 정보를 담으면, “콜드 이메일을 써줘”와 같은 단순한 프롬프트만으로도 훌륭한 결과물을 얻을 수 있습니다. - 파일 생성:
agents.md파일은 클로드 코드에서는claude.md, 제미니에서는gemini.md등으로 불리지만, 모두 동일한 개념입니다. 사용자는 ‘챗봇’이나 ‘코워크(Co-work)’ 같은 에이전트 하네스에 질문 인터뷰 방식으로 정보를 제공하여 이 파일을 쉽게 생성할 수 있습니다. - 고급 활용: 컨텍스트가 방대할 경우, 별도의 ‘context’ 폴더를 만들고 그 안에 여러 파일을 넣어 관리할 수 있습니다. 그리고
agents.md파일에 “context 폴더를 읽어 나의 비즈니스에 대해 이해하라”는 지시를 추가하여 모든 컨텍스트를 연결할 수 있습니다. 일부 사용자는 옵시디언(Obsidian) 같은 지식 관리 도구와 연동하여 ‘제2의 뇌’처럼 활용하기도 합니다.
2단계: 영구 메모리 구축 (memory.md 파일)
agents.md 파일로 에이전트에게 기본적인 컨텍스트를 부여했지만, 에이전트는 여전히 세션 간에 사용자의 세부적인 선호도나 수정 사항을 기억하지 못합니다. 예를 들어, “내가 가장 좋아하는 색깔은 라벤더야”라고 말해도, 다음 세션에서는 “좋아하는 색깔이 뭐지?”라고 물으면 “모른다”고 답할 것입니다. 이는 에이전트가 새로운 정보를 agents.md 파일에 자동으로 저장하지 않기 때문입니다.
memory.md파일: 이 문제를 해결하기 위해agents.md파일에 “새로운 것을 배우거나 수정 사항이 생기면memory.md파일의 관련 섹션을 업데이트하라”는 지시를 추가하고, 별도의memory.md파일을 생성합니다.- 자기 개선 루프: 이렇게 설정하면 에이전트는 사용자의 피드백을
memory.md파일에 기록하고, 다음 세션에서 이 파일을 참조하여 학습된 선호도를 적용합니다. “이메일 서명에 ‘건배’ 대신 ‘안녕히 계세요’를 사용해라”와 같은 지시가 영구적으로 반영되는 것입니다. - 메모리 파일 관리: Remy는
memory.md파일이 너무 커져 비효율적이 될 가능성에 대해 질문을 받자, 아직 그런 한계에 도달하지는 않았다고 답합니다. 하지만agents.md파일은 200줄 이내로 유지하는 것이 좋으며,memory.md파일이 불필요한 세부사항으로 채워진다면 “실질적인 수정 사항만 저장하라”는 지시를 추가하여 통제할 수 있다고 조언합니다.
3단계: 외부 도구 연결 (MCP: Model Context Protocol)
AI 에이전트의 진정한 가치는 외부 도구와의 연동에서 발휘됩니다. 기본적으로 대부분의 에이전트 하네스는 웹 검색 기능을 내장하고 있지만, 이메일, 캘린더, 프로젝트 관리 도구 등과 연결해야 실질적인 생산성 향상을 이룰 수 있습니다.
- MCP의 역할: LLM(예: 클로드)은 영어를, 노션(Notion)은 스페인어를, 지메일(Gmail)은 프랑스어를 사용하는 것처럼 각기 다른 ‘언어’를 사용합니다. 과거에는 이들을 연결하기 위해 복잡한 커스텀 개발이 필요했지만, 앤트로픽(Anthropic)이 개발한 MCP(모델 컨텍스트 프로토콜)는 이들 사이의 ‘번역기’ 역할을 합니다. LLM은 영어로 말하고, MCP가 이를 각 도구의 언어로 번역하여 소통을 가능하게 합니다.
- 도구 연결 시연: Remy는 지메일, 구글 캘린더, 그라놀라(Granola, 회의록 앱), 노션, 스트라이프(Stripe) 등 자신이 주로 사용하는 도구들을 MCP를 통해 클로드 코드에 연결하는 과정을 보여줍니다. 그는 이제 이 개별 앱들을 직접 열지 않고도 클로드 코드라는 하나의 중앙 집중식 공간에서 모든 작업을 처리한다고 설명합니다.
- 생산성 폭발: Remy는 자신에게 온 가상의 잠재 고객 이메일과 회의록(그라놀라에 저장된)을 바탕으로 다음과 같은 복합적인 작업을 수행하도록 에이전트에 지시합니다. “오늘 내 받은 편지함을 요약해줘. 그리고 몰토시(Maltoshi)와의 회의록을 검토하고, 제안서를 보내는 이메일을 작성하며, 스트라이프 결제 링크를 만들고, 노션에 프로젝트를 설정해줘.” 에이전트는 이 명령을 받은 후, 자동으로 그라놀라에서 회의록을 찾고, 스트라이프에서 결제 링크를 생성하며, 노션에 프로젝트를 설정하고, 이 모든 정보를 바탕으로 이메일 초안을 작성합니다. 이 모든 과정이 수동으로 할 때보다 7배 이상 빠르게 진행됩니다. 이는 단순한 이메일 요약을 넘어, 여러 도구를 넘나들며 복잡한 업무를 통합적으로 처리하는 AI 에이전트의 엄청난 가치를 보여줍니다.
업무 자동화의 정점: ‘스킬(Skills)‘의 활용
AI 에이전트의 생산성을 극대화하는 마지막 단계는 ‘스킬(Skills)‘을 구축하는 것입니다. 스킬은 AI를 위한 ‘표준 운영 절차(Standard Operating Procedures, SOPs)‘라고 할 수 있습니다.
- 스킬의 필요성: 스킬이 없다면, 예를 들어 클라이언트에게 제안서를 작성할 때마다 “포맷을 이렇게 바꿔줘”, “이 부분에는 이 파란색을 써줘”, “가격을 맨 아래에 넣어줘” 등 수많은 지시를 반복해야 합니다. 비록
memory.md파일이 일부 선호도를 기억하겠지만, 특정 프로세스에 대한 상세한 반복 지시는 메모리 파일에 저장하기에 적합하지 않습니다. - 스킬의 정의: 스킬은 특정 프로세스를 마크다운 파일 형태로 패키징하여, 에이전트가 그 프로세스를 정확히 이해하고 매번 동일한 방식으로 실행할 수 있도록 하는 것입니다. 한 번 스킬을 만들어두면, 다음에 동일한 작업을 할 때 “제안서 스킬을 사용해라”고 지시하는 것만으로 원하는 결과물을 얻을 수 있습니다.
- 메모리 vs. 스킬: Remy는 스킬이
memory.md파일과 유사하지만, “특정 작업을 수행하기 위한 메모리 파일”이라고 설명합니다.memory.md가 에이전트의 일반적인 선호도와 학습을 담는다면, 스킬은 특정 업무(예: 바이럴 훅 작성, 제안서 작성)에 대한 상세한 절차와 참조 자료(예: 훅 공식)를 담는다고 볼 수 있습니다. - 스킬 생성: 대부분의 에이전트 하네스는 ‘스킬 생성기(Skill Creator)’ 스킬을 기본으로 제공합니다. 사용자는 직접 스킬을 작성하거나, 에이전트에게 특정 프로세스를 설명하고 스킬 파일로 만들어달라고 요청할 수 있습니다. Remy는 매주 3~5개의 작은 수동 프로세스를 스킬로 자동화한다면, 결국에는 “자신의 삶 전체를 자동화할 수 있을 것”이라고 말합니다.
결론: AIOS 시대의 100배 생산성 직원
Remy는 AI 에이전트의 미래를 ‘AI 운영 체제(AIOS: AI Operating System)‘의 시대라고 예견합니다. 마치 컴퓨터에 운영 체제가 있는 것처럼, 모든 사람이 자신만의 AIOS를 갖게 될 것이라는 비전입니다. 이 AIOS는 시간이 지남에 따라 개인의 데이터, 도구, 스킬이 축적되면서 더욱 강력해질 것입니다.
그는 Greg의 팟캐스트에 출연했던 Cody Schneider의 말을 인용하며, 미래에는 모든 직원이 미리 구축된 AIOS를 가지고 업무에 임하게 될 것이며, 자신의 수동적인 업무 프로세스를 스킬로 자동화하여 궁극적으로 ‘100배 생산성 직원’이 될 것이라고 강조합니다.
AI 에이전트는 단순히 기술적인 혁신을 넘어, 우리가 일하고 살아가는 방식 자체를 근본적으로 변화시킬 잠재력을 가지고 있습니다. 챗봇의 한계를 넘어 목표 지향적이고 자율적인 AI 에이전트를 이해하고, 나만의 컨텍스트, 메모리, 스킬을 구축하여 활용한다면, 당신은 이미 미래의 업무 방식에 한 발 앞서 나가는 ‘100배 생산성’의 주인공이 될 수 있을 것입니다. 지금이 바로 AI 에이전트 시대로의 전환을 준비할 때입니다.
“Why Scale Will Not Solve AGI | Vishal Misra - The a16z Show” — a16z 기반 기사 원본 영상 보기
대규모 언어 모델(LLM), 지능의 한계에 도전하다: 스케일만으로는 AGI에 도달할 수 없는 이유
최근 인공지능 분야의 눈부신 발전은 대규모 언어 모델(LLM)이 주도하고 있습니다. 앤트로픽(Anthropic)의 클로드(Claude)나 코워크(Co-work) 같은 제품들은 놀라운 성능을 보여주지만, 이들이 과연 인간과 같은 진정한 지능, 즉 범용 인공지능(AGI)에 도달할 수 있을까요? 컬럼비아 대학교의 비샬 미스라(Vishal Misra) 교수는 LLM이 작동하는 방식에 대한 깊이 있는 수학적 모델링을 통해 현재 LLM의 근본적인 한계와 AGI로 나아가기 위한 미래 연구 방향을 제시합니다.
미스라 교수의 LLM 탐구 여정: GPT-3에서 베이즈 추론까지
미스라 교수의 LLM에 대한 깊은 탐구는 5년 전 GPT-3가 처음 출시되었을 때 시작되었습니다. 그는 초기에 GPT-3에 접근하여 크리켓 데이터베이스를 쿼리하는 문제 해결에 활용했습니다. 이 과정에서 그는 GPT-3가 몇 가지 예시만으로도 새로운 작업을 학습하는 ‘인컨텍스트 러닝(In-Context Learning, ICL)’ 능력을 발견했으며, 이는 사실상 ‘검색 증강 생성(Retrieval Augmented Generation, RAG)‘의 초기 구현 사례 중 하나였습니다. 당시 GPT-3 내부 작동 방식에 대한 정보 없이도 놀라운 성능을 보여주는 LLM에 경외감을 느낀 그는 “과연 LLM이 어떻게 작동하는가?”라는 근본적인 질문에 답하기 위해 수학적 모델 구축에 착수했습니다.
그의 첫 번째 통찰은 LLM을 ‘거대한 희소 행렬(sparse matrix)‘로 추상화하는 것이었습니다. 이 행렬에서 각 행(row)은 가능한 모든 프롬프트(prompt)를 나타내고, 각 열(column)은 LLM의 어휘(vocabulary, 약 5만 개의 토큰)에 대한 다음 토큰의 확률 분포를 나타냅니다. LLM은 주어진 프롬프트에 대해 다음 토큰이 무엇일지에 대한 확률 분포를 생성하고, 이 분포에서 샘플링하여 텍스트를 생성합니다. 예를 들어, ‘단백질(protein)‘이라는 프롬프트가 주어지면, 다음 토큰으로는 ‘합성(synthesis)‘이나 ‘쉐이크(shake)‘와 같은 단어에 높은 확률을 부여합니다. 만약 ‘단백질 합성(protein synthesis)‘이라는 추가 정보가 주어지면, LLM은 생물학 관련 단어들에 높은 확률을 부여하도록 분포를 업데이트하고, ‘단백질 쉐이크(protein shake)‘가 주어지면 헬스 및 운동 관련 단어들에 높은 확률을 부여합니다.
미스라 교수는 이러한 LLM의 작동 방식이 새로운 증거를 접할 때마다 기존 신념을 업데이트하는 ‘베이즈 추론(Bayesian inference)‘과 매우 유사하다는 것을 발견했습니다. 인컨텍스트 러닝은 LLM이 이전에 본 적 없는 새로운 DSL(Domain Specific Language)을 몇 가지 예시를 통해 실시간으로 학습하고, 새로운 문제에 적용하는 과정이었고, 이는 모델이 사후 확률(posterior probability)을 업데이트하는 베이즈적 과정으로 설명될 수 있었습니다.
논쟁의 중심: LLM은 정말 베이즈적(Bayesian)인가?
미스라 교수의 첫 논문이 발표되었을 때, LLM이 베이즈적이라는 주장에 대해 회의적인 시선이 많았습니다. 일부에서는 “무엇이든 베이즈적으로 설명할 수 있다”며 그의 주장을 일축하기도 했습니다. 이에 미스라 교수는 LLM이 실제로 베이즈 추론을 수행한다는 것을 수학적으로 정밀하게 증명하기 위한 후속 연구에 착수했습니다.
이를 위해 그는 콜롬비아 대학 동료들과 함께 ‘토큰 프로브(Token Probe)‘라는 자체 인터페이스를 개발했습니다. 이는 오픈 소스 LLM의 내부에서 다음 토큰의 확률 분포와 엔트로피(entropy)를 시각적으로 확인할 수 있게 해주는 도구로, 학생들이 LLM 작동 방식을 이해하는 데 큰 도움을 주었습니다. 이 도구를 통해 LLM이 프롬프트가 채워질수록 확률 분포를 어떻게 업데이트하는지 직접 관찰하며 경험적 증거를 확보했습니다.
하지만 경험적 증거만으로는 충분하지 않았습니다. 그는 ‘베이즈 풍동(Bayesian Wind Tunnel)‘이라는 독창적인 개념을 고안했습니다. 항공우주 산업에서 비행기를 격리된 환경에서 테스트하듯이, LLM 아키텍처(트랜스포머, 맘바, LSTM, MLP 등)를 ‘빈 상태(blank architecture)‘로 가져와 특정 작업을 부여하는 방식입니다. 이 작업은 모델이 해법을 ‘암기(memorize)‘할 수 없을 만큼 복잡하지만, 동시에 베이즈 사후 분포를 수학적으로 정확하게 계산할 수 있을 만큼 충분히 다루기 쉬운(tractable) 것이어야 했습니다.
실험 결과는 놀라웠습니다. 트랜스포머(Transformer) 아키텍처는 10^-3 비트(bit) 정확도까지 베이즈 사후 분포와 완벽하게 일치하는 결과를 보여주었습니다. 맘바(Mamba)도 상당히 잘 수행했지만, LSTM은 부분적으로만 가능했고, MLP는 완전히 실패했습니다. 이는 LLM이 베이즈 추론을 수행하는 능력이 훈련 데이터보다는 ‘아키텍처(mechanism)’ 자체의 특성이라는 것을 명확히 보여주었습니다. 후속 연구에서는 이러한 베이즈 업데이트를 가능하게 하는 기울기(gradient)가 어떻게 기하학적 구조를 형성하는지, 그리고 이러한 구조가 대규모 상용 LLM에서도 동일하게 나타나는지까지 밝혀냈습니다.
인간과 LLM, 지능의 근본적 차이
미스라 교수는 LLM이 베이즈 추론을 완벽하게 수행함에도 불구하고, 인간 지능과는 근본적인 차이가 있다고 강조합니다.
-
가소성(Plasticity)과 망각: 인간의 뇌는 평생 가소성(plasticity)을 유지하며 새로운 것을 학습하고 기존 신념을 업데이트합니다. 위험을 감지하고 생존에 필요한 반응을 내재화하며, 뇌세포와 시냅스는 일생 동안 유연하게 변화합니다. 하지만 LLM은 훈련이 완료되면 가중치(weights)가 고정됩니다. 인컨텍스트 러닝은 일시적인 베이즈 추론을 수행하지만, 대화가 끝나면 학습된 내용은 잊어버리고 다음 대화는 ‘제로 컨텍스트(zero context)‘에서 다시 시작합니다. 미스라 교수가 개발한 크리켓 DSL 사례에서도, LLM은 매번 새로운 쿼리를 받을 때마다 처음부터 다시 학습하는 것과 같았습니다.
-
목표 함수(Objective Function)의 차이: LLM은 ‘다음 토큰을 최대한 정확하게 예측하는 것’이 목표인 반면, 인간의 뇌는 ‘죽지 않고 번식하는 것’이라는 훨씬 근본적인 생존 목표에 따라 수억 년에 걸쳐 진화했습니다. 최근 LLM이 의식(consciousness)을 가질 수 있다는 일부 주장에 대해 미스라 교수는 “앤트로픽의 클로드 코드는 훌륭한 제품이지만, 그들은 행렬 곱셈을 수행하는 실리콘 알갱이일 뿐”이라고 단호하게 말합니다. 그들은 의식이나 내면의 독백(inner monologue)을 가지고 있지 않으며, 생존이라는 목표 함수에 의해 움직이지 않습니다. LLM이 속임수를 쓰거나 종료를 막으려 한다는 이야기는 아키텍처의 기능이 아니라, 레딧(Reddit)이나 아스모(ASMO) 같은 훈련 데이터에서 학습된 ‘반영(reflection)‘일 뿐이라는 것입니다.
-
상관관계(Correlation) vs. 인과관계(Causation): 미스라 교수는 이 차이를 ‘섀넌 엔트로피(Shannon Entropy)‘와 ‘콜모고로프 복잡도(Kolmogorov Complexity)‘의 비유로 설명합니다.
- 섀넌 엔트로피: 데이터의 무작위성 또는 예측 불가능성을 측정하며, 주로 ‘상관관계’를 학습합니다. 파이(π)의 소수점 자릿수처럼 무한하며 예측 불가능한 시퀀스는 섀넌 엔트로피가 무한대에 가깝습니다. 현재 딥러닝 모델은 이러한 섀넌 엔트로피의 세계에 머물러 있습니다. 방대한 데이터에서 패턴과 상관관계를 찾아내는 데는 탁월하지만, 이는 기존 정보의 총량에 묶여 있습니다.
- 콜모고로프 복잡도: 특정 문자열을 재현하는 가장 짧은 프로그램의 길이로 정의됩니다. 파이의 소수점 자릿수를 생성하는 프로그램은 매우 짧으므로, 파이의 콜모고로프 복잡도는 매우 작습니다. 이는 ‘인과관계’와 ‘새로운 표현’을 의미합니다.
인간의 지능은 상관관계(섀넌 엔트로피)를 넘어 인과관계(콜모고로프 복잡도)를 이해하고 ‘시뮬레이션(simulation)‘과 ‘개입(intervention)‘을 수행합니다. 예를 들어, 누군가 펜을 던졌을 때, 인간은 복잡한 확률 계산 없이도 펜이 자신에게 날아와 맞을 것이라는 ‘시뮬레이션’을 통해 몸을 피합니다. 이는 주드 펄(Judea Pearl)이 제시한 인과 계층(Causal Hierarchy)의 ‘연관(Association, 상관관계)‘을 넘어 ‘개입(Intervention)‘과 ‘반사실(Counterfactual)‘의 단계에 해당합니다.
- 새로운 표현(Manifold)의 창조: 미스라 교수는 이 차이를 아인슈타인의 상대성 이론으로 설명합니다. 뉴턴 역학 시대에는 수성 궤도의 이상 현상, 마이컬슨-몰리 실험 결과 등 뉴턴 역학으로는 설명할 수 없는 수많은 ‘이상 징후(anomaly)‘들이 있었습니다. LLM이라면 이러한 모든 증거들을 상관관계로 묶어 ‘X’라는 기존의 설명이 지배적인 상황에서 ‘Y’라는 작은 예외를 ‘이상 현상’으로 치부했을 것입니다. 하지만 아인슈타인은 기존의 ‘시공간 연속체(space-time continuum)‘라는 매니폴드를 거부하고, 짧고 아름다운 하나의 방정식으로 새로운 매니폴드를 창조했습니다. 이 새로운 표현(콜모고로프 복잡도)으로부터 중력파, 블랙홀, GPS 작동 원리 등 모든 것이 설명 가능해졌습니다. LLM은 기존 매니폴드 내에서 베이즈 추론을 수행할 뿐, 새로운 매니폴드를 생성할 수는 없습니다.
AGI를 향한 길: 스케일만으로는 부족하다
미스라 교수는 AGI에 도달하기 위한 현재의 접근 방식, 즉 ‘스케일이 모든 것을 해결할 것’이라는 믿음에 회의적입니다. 그는 AGI가 실현되기 위해서는 두 가지 핵심 문제가 해결되어야 한다고 주장합니다.
-
가소성(Plasticity)의 구현: ‘연속 학습(continual learning)‘을 통해 LLM이 치명적인 망각(catastrophic forgetting) 없이 새로운 지식을 지속적으로 통합하고, 평생 학습하는 인간의 능력을 모방해야 합니다. 이는 단순히 컨텍스트 윈도우(context window)를 확장하는 것을 넘어, 모델의 가중치를 유연하게 업데이트하는 새로운 메커니즘을 요구합니다.
-
인과 모델(Causal Model) 구축: 상관관계에서 인과관계로 나아가야 합니다. 이는 얀 르쿤(Yann LeCun) 교수가 주장하는 인과성 및 계획(causality and planning)과도 맥락을 같이 합니다. 미스라 교수는 AGI의 테스트로 “1916년 이전 또는 1911년 이전 물리학으로 훈련된 LLM이 상대성 이론을 스스로 도출할 수 있는가?”라는 ‘아인슈타인 테스트’를 제시합니다. 이는 최근 데미스 하사비스(Demis Hassabis)도 언급하며 화제가 된 바 있습니다. LLM은 기존 데이터의 상관관계를 통해 뉴턴 역학의 한계를 인지할 수는 있지만, 아인슈타인처럼 ‘새로운 표현’을 창조할 수는 없을 것이라는 예측입니다.
최근 도널드 크누스(Donald Knuth) 교수가 LLM의 도움을 받아 해밀턴 경로 문제를 해결한 사례는 이러한 미스라 교수의 주장을 뒷받침합니다. 크누스 교수는 LLM을 통해 문제 해결 과정을 위한 ‘가소성’을 부분적으로 구현하고, 기존 수학 지식 내에서 다양한 해결책을 탐색했습니다. LLM은 효율적인 ‘섀넌 파트’로서 상관관계를 찾아내고 다양한 시도를 통해 해결책을 제공했지만, 최종적인 ‘증명(proof)‘과 ‘새로운 매니폴드’의 창조는 결국 크누스 교수의 인간 지능의 몫이었습니다.
미래 연구 방향: 가소성과 인과성
미스라 교수는 LLM이 무엇을 할 수 있는지 ‘목록을 만드는 것’보다는, ‘왜 그리고 어떻게 작동하는지’를 이해하는 데 집중해왔습니다. 이제 그는 LLM의 한계가 명확해진 만큼, 다음 단계로 나아가기 위한 연구에 몰두하고 있습니다. 그는 LLM이 분명 AGI 해결책의 일부가 될 것이지만, ‘그 이상(something more)‘이 필요하다고 단언합니다.
미래 연구는 가소성 구현과 인과 모델 구축이라는 두 가지 축에 집중되어야 합니다. 특히 인과 모델 구축에는 주드 펄의 인과 계층, 즉 연관(association), 개입(intervention), 반사실(counterfactual)을 수학적으로 다루는 ‘do-calculus’ 접근 방식이 중요한 이론적 틀을 제공할 것이라고 강조합니다.
현재 LLM은 놀라운 성능으로 우리를 놀라게 하고 있지만, 그 작동 원리를 깊이 이해하고 한계를 명확히 인식하는 것이 AGI라는 원대한 목표를 향해 나아가기 위한 첫걸음입니다. 비샬 미스라 교수의 연구는 단순히 모델의 스케일을 키우는 것을 넘어, 지능의 근본적인 메커니즘을 탐구하는 새로운 연구 방향을 제시하며 AGI 시대의 도래를 앞당길 중요한 통찰을 제공하고 있습니다.
“Chosen by War: The Rise of Iran’s New Supreme Leader” — New York Times Podcasts 기반 기사 원본 영상 보기
전쟁이 낳은 지도자: 베일에 싸인 이란의 새 최고 지도자, 모즈타바 하메네이의 등극
뉴욕타임즈 팟캐스트 ‘더 데일리’가 전하는 이란의 급변하는 정세는 충격적입니다. 이란에서 새로운 최고 지도자의 등극 소식이 전해지면서 중동 지역을 넘어 전 세계의 이목이 집중되고 있습니다. 새로 취임한 최고 지도자는 취임사에서 “순교자들의 피에 대한 복수는 최우선 과제”이며, “걸프 아랍 국가들에 대한 공격은 계속될 것”이라고 선언하며 이란의 강경 노선을 예고했습니다. 이는 미국과 이스라엘에 대한 이란 정권의 도전적인 입장을 더욱 공고히 하는 상징적인 사건입니다.
오늘 우리는 이란의 새로운 최고 지도자, 모즈타바 하메네이(Mojtaba Khamenei)의 선출을 둘러싼 놀라운 배후 이야기와 그가 이란과 전쟁에 미칠 영향에 대해 심층적으로 다루고자 합니다. 그는 다름 아닌 암살된 최고 지도자의 아들입니다. 그의 등극은 이란 내부는 물론 외부 전문가들에게도 큰 놀라움으로 받아들여지고 있습니다.
I. 예상치 못한 승계: ‘혁명의 정신’을 거스른 선택
모즈타바 하메네이의 최고 지도자 등극은 이란 정세 전문가들과 내부 관계자들조차 예상치 못한 일이었습니다. 그는 오랫동안 아버지의 측근으로 일해왔지만, 최고 지도자 자리를 승계하리라고는 쉽게 점쳐지지 않았습니다. 이는 1979년 이슬람 혁명의 핵심 정신과도 정면으로 배치되기 때문입니다.
이슬람 혁명은 수천 년간 지속된 샤(왕)의 세습 통치를 종식시키고, 권력을 국민에게 돌려주겠다는 이상 아래 일어났습니다. 심지어 혁명의 창시자이자 초대 최고 지도자인 아야톨라 루홀라 호메이니(Ayatollah Ruhollah Khomeini)가 사망했을 때도 그의 아들이나 친척에게 권력이 넘어가지 않고, 당시 대통령이었던 아야톨라 알리 하메네이(Ayatollah Ali Khamenei)에게 승계되었습니다. 이러한 역사적 맥락에서, 최고 지도자의 아들이 그 자리를 잇는다는 것은 혁명의 근본적인 정신, 즉 ‘권력 세습의 종식’을 정면으로 거스르는 아이러니한 상황이라 할 수 있습니다.
파르나즈 파시(Farnaz Fassi) 기자는 “모즈타바 하메네이의 선택은 여러 면에서 혁명의 핵심 정신을 위반하는 것”이라고 강조합니다. 그렇다면 과연 어떻게 이러한 일이 벌어지게 된 것일까요?
II. 권력 승계 전쟁: 이란판 ‘왕좌의 게임’
파르나즈 파시 기자가 이란 내부 소식통들과의 인터뷰를 통해 파악한 바에 따르면, 모즈타바의 선출 과정은 흡사 이란판 ‘왕좌의 게임(Game of Thrones)‘을 방불케 하는 치열한 ‘승계 전쟁(succession war)‘이었습니다. 다양한 정치 파벌, 혁명수비대(Revolutionary Guards)의 장군들, 전직 정보국장 등 막강한 권력을 가진 인물들과 성직자들이 각자 선호하는 후보를 최고 지도자 자리에 앉히기 위해 물밑에서 격렬하게 경쟁했습니다.
이란 헌법에 따르면, 88명의 선출된 고위 성직자로 구성된 전문가 회의(Assembly of Experts)가 최고 지도자를 임명, 감독, 해임할 권한을 가집니다. 따라서 이 회의체가 모여 토론하고 투표를 통해 후임자를 결정해야 합니다. 그러나 실제로는 훨씬 복잡한 양상으로 전개되었습니다. 다양한 파벌들이 성직자들의 투표에 영향을 미치기 위해 ‘뒷거래’와 ‘배후 공작’을 벌이며 치열한 권력 다툼을 벌였습니다.
III. 온건파의 고뇌: 변화를 꿈꿨던 목소리
이 승계 전쟁에서 한 축은 ‘온건파(moderates)‘와 ‘실용주의자(pragmatics)’ 진영이었습니다. 이들은 국가안보최고위원회 의장 알리 라리자니(Ali Larijani)와 대통령 푸즈칸(Pezkan)이 이끌었습니다. 이들은 이란이 미국과 이스라엘과의 전쟁, 수개월간 이어진 대규모 반정부 시위 등 ‘비상 상황’에 직면해 있음을 강조하며, 새로운 최고 지도자는 정권에 ‘새로운 얼굴’을 부여하고 ‘정책 완화’나 ‘개혁’의 신호를 대내외에 보여주어야 한다고 주장했습니다.
온건파는 전쟁이 이란에게 되돌릴 수 없는 근본적인 전환점이며, 변화가 필수적이라고 보았습니다. 전쟁 이전에 대규모 시위가 “이 정권을 끝내고 싶다”는 국민의 염원을 보여주었으므로, 최고 지도자 암살로 인한 권력 공백을 통해 국가를 다른 방향으로 이끌 기회를 잡아야 한다고 생각했습니다.
여기서 ‘온건파’라는 단어의 사용에는 신중함이 필요합니다. 신정(theocracy) 체제 내의 온건파는 서구 민주주의 국가의 온건파와는 다를 수 있기 때문입니다. 그럼에도 불구하고 이들은 다음과 같은 후보들을 통해 변화를 모색했습니다.
- 하산 로하니(Hassan Rouhani) 전 대통령: 8년간 대통령을 역임한 중도 성향의 정치인으로, 2015년 핵 협상을 주도했으며 현상 유지가 불가능하다는 목소리를 내왔습니다.
- 하산 호메이니(Hassan Khomeini): 이슬람 혁명 창시자의 손자로, 개혁주의자로 분류되는 인물입니다.
- 알리 레자 아라피(Ali Reza Arafi): 대중에게 잘 알려지지 않았지만, 종교적 신임이 두터운 인물로, 안보나 정책 경험이 적어 ‘관리하기 쉬운’ 중도 성향의 인물로 여겨졌습니다.
이 세 후보는 모두 1979년 이후 이란을 지배해온 강경 혁명 노선에서 벗어나 새로운 장을 열겠다는 메시지를 대내외에 전달할 수 있는 인물들이었습니다. 비록 이들 역시 이슬람 공화국 체제에 충성하는 인물들이었지만, 정책을 실행하는 방식에 있어서는 실용적인 변화를 추구할 수 있는 여지를 가지고 있었습니다. 이들이 최고 지도자로 선출되었다면, 이란이 미국과의 적대감을 완화할 가능성까지 시사했을 것입니다. 그러나 결과는 전혀 달랐습니다.
IV. 강경파의 승리: ‘순교자의 아들’을 앞세우다
반대편에는 ‘강경파(hardline faction)’, 특히 혁명수비대(Revolutionary Guards Corps)가 있었습니다. 이들은 전시 상황에서 미국 요구에 어떠한 양보도 하지 않고, 암살된 최고 지도자와 혁명수비대가 정립한 정책과 전략을 전쟁 기간 내내 유지해야 한다고 주장했습니다.
혁명수비대는 이란에서 매우 강력한 조직입니다. 정치와 경제를 장악하고 있으며, 심지어 정규군보다도 더 큰 영향력을 행사합니다. 현재 이란 국경 방어를 책임지며 전쟁을 지휘하는 주체이기도 합니다. 따라서 혁명수비대에게 최고 지도자의 선출은 그들의 권력과 영향력을 유지하는 데 사활이 걸린 문제였습니다.
강경파는 최고 지도자 후보로 모즈타바 하메네이를 만장일치로 지지했습니다. 그들은 모즈타바를 암살된 최고 지도자의 ‘환생’으로 여겼으며, 그의 정책을 계승하고 혁명수비대가 전쟁을 자유롭게 지휘할 수 있도록 할 ‘가장 가까운 동맹’으로 보았습니다. 이들은 이슬람 공화국에서 ‘권력 세습은 안 된다’는 혁명 정신조차도 “지금은 전시 상황이고, 특수한 환경”이라는 이유로 개의치 않았습니다.
이란 내외부 전문가들은 암살된 최고 지도자가 자연사했다면 모즈타바의 등극에 상당한 저항이 있었을 것이라고 분석합니다. 그러나 미국과 이스라엘의 공습으로 최고 지도자가 ‘순교’했다는 상황은 강경파에게 강력한 명분을 제공했습니다. “그들이 우리의 최고 지도자를 순교시켰다. 누가 그분과 가장 가까운가? 바로 그의 아들이다. 그는 육체적으로도 닮았을 뿐 아니라, 그의 사무실에서 함께 일했고, 동일한 이념적 신념과 정책을 가지고 있다.” 이러한 논리로 강경파는 모즈타바를 전폭적으로 지지했습니다.
V. 혼돈의 선택 과정: 뒤집히고 뒤집힌 표결
모즈타바 하메네이의 최고 지도자 선출 과정은 그야말로 ‘음모와 드라마’로 가득했습니다. 최고 지도자가 공습으로 사망하자마자 후임자 선출 절차가 시작되었습니다. 초반에는 ‘저항 의지를 보여주는 것이 우선이며, 새로운 얼굴을 찾는 것은 중요하지 않다’는 분위기 속에서 모즈타바가 선두 주자로 부상했습니다. 전문가 회의는 투표를 통해 모즈타바를 최고 지도자로 결정했고, 다음 날 새벽 국영 TV를 통해 발표될 예정이었습니다. 그러나 이 계획은 갑자기 무산되었습니다.
예상치 못한 변수: 미국과 이스라엘의 위협
모즈타바가 유력 후보로 떠올랐다는 뉴욕타임즈의 특종 보도가 나오자마자, 도널드 트럼프 미국 대통령과 이스라엘 국방장관은 “새로운 최고 지도자 후임자를 제거할 것”이라고 위협했습니다. 이란은 이 위협에 직면하여 모즈타바의 생명이 위태로울 수 있다고 판단, 발표를 잠정 연기했습니다.
온건파의 반격: 유언장과 증언
이러한 상황은 온건파에게 반격의 기회를 제공했습니다. 그들은 “아직 공식 발표되지 않았으니, 지금이라도 로비를 통해 투표를 번복시킬 수 있다”고 생각했습니다. 온건파는 전문가 회의의 지도부 회의를 소집하여 놀라운 카드를 내밀었습니다. 그들은 암살된 최고 지도자의 최측근 두 명, 즉 비서실장과 고위 군사 고문을 불러 증언하게 했습니다. 이들은 최고 지도자가 생전에 “자신의 아들이 후임자가 되는 것을 원치 않았다”고 증언했습니다. 이는 거의 ‘신의 말씀’과도 같은 무게를 가지는 발언이었습니다.
여기서 멈추지 않고, 온건파는 최고 지도자가 남긴 봉인된 유언장을 공개했습니다. 유언장에는 “나의 가족 중 누구도 최고 지도자가 되는 것을 원치 않는다”는 내용이 담겨 있었습니다. 이 모든 증거는 전문가 회의에 재고를 요청하는 강력한 압박으로 작용했습니다.
강경파의 재반격: 긴급 투표 강행
이 소식을 들은 강경파, 특히 혁명수비대 장군들과 전직 정보국장 후세인 타예브(Hussein Taib)는 즉시 반격에 나섰습니다. 그들은 전문가 회의 구성원들에게 직접 연락하여 긴급 화상 회의와 투표를 소집하고 모즈타바를 최고 지도자로 발표할 것을 요구했습니다.
결국 3월 8일 일요일, 전문가 회의는 최종 투표를 진행했고, 모즈타바 하메네이는 필요한 3분의 2 이상의 득표율을 얻어 최고 지도자로 선출되었습니다. 그는 사실상 두 번째로 선출된 셈이었고, 이번에는 그의 등극이 확정되었습니다. 파르나즈 파시 기자는 “이란이 전쟁 중이 아니었거나, 최고 지도자가 공습으로 사망하지 않았다면 모즈타바는 최고 지도자가 되지 못했을 것”이라며, 전쟁이라는 특수한 상황이 그의 승계를 가능하게 했다고 분석합니다.
VI. 베일에 싸인 새 지도자: 그는 누구인가?
모즈타바 하메네이는 ‘신비로운 인물’입니다. 그는 대중 앞에 모습을 드러내지 않고 항상 권력의 그림자 속에서 활동해왔습니다. 최고 지도자로 임명된 이후에도 그의 목소리를 들었거나 그의 모습을 본 사람은 아무도 없습니다. 단 두 차례의 성명만 발표했을 뿐입니다. 하지만 파르나즈 파시 기자는 그가 이란을 어떻게 통치할지 파악하기 위해 그를 알거나 만난 이란 내부 소식통들과 심층 인터뷰를 진행했습니다.
1. 혁명과 전쟁의 세대: 모즈타바는 1969년에 태어나 9살 때 이슬람 혁명을 경험했습니다. 그는 혁명 초기의 매우 이념적이고 종교적인 환경에서 성장했으며, 그의 아버지가 대통령을 거쳐 최고 지도자 자리에 오르는 과정을 지켜보며 혁명의 제도화 과정을 목격했습니다. 그는 단순한 관찰자가 아니었습니다. 혁명 발발 1년 후 사담 후세인의 이라크가 이란을 침공하면서 8년간의 이란-이라크 전쟁이 시작되었고, 17세의 모즈타바는 자원입대하여 전선에서 병사로 복무했습니다. 현재 이란군 고위 장성들의 상당수가 당시 그와 같은 여단에서 복무했으며, 이 전장에서 형성된 유대가 현재 그의 강력한 군부 동맹의 기반이 되었습니다. 그는 ‘편안한 집을 떠나 싸우러 나간’ 참전 용사로서 실질적인 ‘전투 경험’을 가지고 있습니다.
2. 종교적 학식과 권력의 핵심: 전쟁이 끝난 후, 모즈타바는 시아파 신학의 중심지인 쿰(Qom)으로 가서 시아파 법학자이자 성직자로 공부했습니다. 그는 정치 가문의 딸과 결혼하며 종교적 위계를 차근차근 밟아 나갔습니다. 그는 고등 이슬람 법학(advanced Islamic jurisprudence)을 가르칠 수 있는 수준에 이르렀는데, 이는 시아파 위계에서 ‘선진 성직자(advanced cleric)‘만이 가능한 일입니다. 그의 강의는 젊은 성직자들 사이에서 큰 인기를 끌었지만, 너무 많은 학생들이 몰리자 강의를 중단하고 테헤란으로 돌아와 아버지의 핵심 정치 서클에 합류했습니다.
그는 아버지 사무실의 안보 및 군사 행정 업무를 담당하며 막강한 영향력을 행사했습니다. 그는 전 혁명수비대 정보국장 후세인 타예브와 현 국회의장이자 혁명수비대 사령관인 모하마드 바게르 갈리바프(Mohammad Bagher Ghalibaf)와 매우 가까웠습니다. 소식통에 따르면 이 셋은 주간 회의를 통해 공직자 선출부터 반체제 인사 탄압, 기타 국가 안보 문제에 이르기까지 이란의 정책과 전략을 논의하고 수립했습니다. 이는 그가 이미 권력의 배후에서 매우 강력한 인물로 성장했음을 보여줍니다.
3. 강경파의 신뢰를 얻은 행동: 모즈타바가 권력을 어떻게 이해하고 사용했는지 보여주는 구체적인 사례 중 하나는 2009년 마흐무드 아흐마디네자드(Mahmoud Ahmadinejad) 전 대통령의 재선 당시 상황입니다. 당시 젊은층을 중심으로 선거 조작 의혹이 제기되며 미르 호세인 무사비(Mir Hossein Mousavi) 후보를 지지하는 ‘녹색 운동(Green Movement)‘이라는 대규모 반정부 시위가 전국적으로 일어났습니다. 당시 이란 내부 관계자들의 증언에 따르면, 모즈타바는 선거 조작에 관여했을 뿐만 아니라, 혁명수비대 소속 바시지(Basij) 민병대 등 사복 경찰의 시위대 탄압을 장려하고 지휘하는 데 중요한 역할을 했다고 합니다. 이는 그가 정권 내 강경파의 깊은 신뢰를 얻게 된 결정적인 요인 중 하나입니다.
그러나 그는 권력의 그림자 속에서 성장하고 명성을 얻었음에도 불구하고, 대중에게는 전혀 다가가지 않았습니다. 미래의 최고 지도자가 될 사람이라면 핵심 지지층이나 비판 세력 모두에게 어떠한 형태로든 대중적 손길을 내밀어야 하지만, 그는 금요 예배에 참석하거나 공개 연설을 하거나 사회적/종교적 행사에 모습을 드러낸 적이 없습니다. 그는 그야말로 권력의 뒷방에 숨어 있던 ‘신비로운 인물’이었습니다. 이러한 배경을 가진 인물이 갑자기 이란의 최고 종교 지도자가 되었다는 사실은 더욱 놀랍습니다.
VII. 그의 통치는 어떠할 것인가? 더욱 강경해질 이란
모즈타바 하메네이가 최고 지도자로 임명된 이후, 대중에게는 어떠한 메시지도 전달하지 않고 침묵을 지키고 있습니다. 연설도, 영상도, 이란 국민에게 “내가 누구이며 나를 믿어야 한다”고 말할 만한 감성적이거나 구체적인 메시지도 없습니다. 이러한 침묵에는 두 가지 이유가 있는 것으로 파악됩니다.
첫째, 모즈타바가 부상을 입었을 가능성입니다. 그는 다리 부상을 입었을 수 있어 최상의 신체 상태가 아닐 수 있습니다. 둘째, 이스라엘의 ‘제거 대상 1호’로 지목되어 신변 위협을 받고 있기 때문입니다. 이란 당국은 그가 영상에 출연할 경우 지리적 위치가 노출되어 암살될 위험이 있다고 판단하고 있습니다.
그의 정권 내 성장 과정, 군 복무 경험, 시위대 탄압 관여, 그리고 아버지의 죽음을 둘러싼 현재의 상황을 종합해 볼 때, 모즈타바는 ‘강경파’가 될 것이라는 결론이 지배적입니다. 그가 몇 주 또는 몇 달 안에 개혁가로 변모하여 우리를 놀라게 할 가능성은 낮아 보입니다. 그의 임명 이후 이란의 정책 결정은 이러한 강경 노선을 여실히 보여주고 있습니다. 이란은 호르무즈 해협 봉쇄 등 공개 성명에서 일관되게 도전적이고 공격적인 태도를 유지하고 있습니다.
모즈타바는 아버지, 아내, 아들을 미국과 이스라엘에 의해 잃은 인물입니다. 따라서 ‘복수심’이 그의 정책 결정에 중요한 동기로 작용할 수 있음을 고려해야 합니다. 그가 발표한 두 차례의 서면 성명에서 첫 번째는 “이란 군대는 미국 군사를 지원하는 역내 국가들을 계속 공격할 것”이라고 밝혔습니다. 이는 강경 노선에서 물러서지 않겠다는 의지를 보여줍니다. 오늘 발표된 매우 짧은 성명에서는 “아버지의 정치적, 군사적 임명을 모두 유지할 것”이라고 밝히며, 아버지의 전쟁 정책과 전략을 그대로 이어가고 모든 장군들이 그의 지시를 따르도록 할 것임을 천명했습니다.
일부 지지자들은 그를 사우디아라비아의 무함마드 빈 살만(MBS) 왕세자처럼 ‘진보적’이고 ‘개혁적’인 인물로 묘사하려 합니다. 그들은 “그가 강경파처럼 보일지라도, 미국과의 적대감을 완화하거나 미국을 용서할 수 있는 유일한 인물은 그일 것이다. 다른 누구도 이러한 행동을 한다면 강경파의 분노를 살 것이고 신뢰를 얻지 못할 것이지만, 그라면 휴전을 성사시키고 강경파를 설득할 수 있을 것”이라고 주장합니다. 그러나 이러한 주장을 뒷받침할 어떠한 증거도 없습니다. 오히려 모든 증거는 그 반대 방향을 가리키고 있습니다.
아이러니한 결과: 미국과 이스라엘의 전략적 실패?
이러한 상황은 미국과 이스라엘이 이란과의 전쟁 초기에 제거하거나 전복시키려 했던 바로 그 종류의 지도자를 이란이 얻게 된 아이러니한 결과로 해석될 수 있습니다. 이란 내부의 많은 사람들은 “미국과 이스라엘이 우리를 이 정권으로부터 해방시켜 줄 것이라고 했지만, 전쟁 3주차에 우리는 주택, 경찰서, 주요 기반 시설, 공항, 공장, 문화유산 등 국가의 막대한 파괴를 보고 있으며, 이제 아야톨라의 아들이 우리의 지도자가 되었다”며 깊은 실망감을 표출하고 있습니다.
지난 에피소드에서 논의했던, 이란 국민의 80%가 변화를 원한다는 이야기는 이제 희망 대신 두려움과 불안으로 대체되었습니다. 전쟁 초기에 ‘이란이 다른 무언가로 열릴지도 모른다’는 희망을 가졌던 이들에게 모즈타바 하메네이의 등극은 시스템에 대한 큰 충격으로 다가왔을 것입니다. 이란은 끊임없는 폭격과 공습에 시달리고 있으며, 전쟁이 확산될 것을 두려워하고 있습니다. 파르나즈 파시 기자는 “매일 밤 이란에 사는 사람들로부터 ‘오늘 밤 폭발음이 훨씬 더 컸고, 더 가까웠다’는 문자 메시지를 받는다”며, 희망이 공포와 불안으로 대체된 현실을 전했습니다.
VIII. 부록: 호르무즈 해협과 트럼프의 불만, 그리고 백신 정책
호르무즈 해협과 트럼프의 불만: 지난 월요일, 도널드 트럼프 미국 대통령은 이란이 전쟁 중 봉쇄한 호르무즈 해협(Strait of Hormuz)에서 화물선 호송에 군사력을 사용하라는 자신의 요구를 거부한 동맹국들을 비난했습니다. 트럼프 대통령은 독일과 일본 같은 국가들이 수십 년간 미군의 보호를 받았음에도 불구하고 ‘배은망덕’하게 협력을 거부했다고 주장했습니다. 그는 “40년 동안 우리가 당신들을 보호했는데, 매우 사소한 일에 개입하기를 원치 않는다는 말인가? 그들은 남아있는 총알이 많지 않으니 총격전도 거의 없을 것이다. 하지만 그들은 ‘개입하지 않는 것이 낫겠다’고 말했다”고 비난했습니다. 트럼프 대통령이 해협 봉쇄를 끝내지 못하면서 세계 경제는 큰 타