Actualmente, ejecutar modelos de IA de código abierto localmente es simplemente una alternativa incómoda a la facilidad de usar servicios basados en la nube como ChatGPT, Claude, Gemini o Grok.
Sin embargo, ejecutar modelos directamente en dispositivos personales en lugar de enviar información a servidores centralizados ofrece una seguridad mejorada para el procesamiento de información confidencial y será cada vez más importante a medida que la industria de la IA escale.
La explosión del crecimiento de la IA desde que Operai lanzó ChatGPT con GPT3 ha superado el desarrollo de la informática tradicional y se espera que continúe. Con esto, los modelos de IA centralizados administrados por compañías de miles de millones de dólares como Operai, Google y otros aprovecharán un considerable poder e influencia global.
Cuanto más poderoso sea el modelo, más usuarios pueden analizar grandes cantidades de datos a través de IA para ayudar en innumerables maneras. Los datos propiedad y controlados por estas compañías de IA serán extremadamente valiosos y podrían incluir datos privados cada vez más sensibles.
Para aprovechar completamente los modelos de IA fronteriza, los usuarios pueden decidir exponer datos privados como registros médicos, transacciones financieras, revistas personales, correos electrónicos, fotos, mensajes, datos de ubicación y más para crear un asistente de IA de agente con una imagen holística de sus usuarios.
La elección se vuelve interesante: confíe en una corporación con sus datos más personales y privados o ejecuta un modelo de IA local que almacene datos privados localmente o fuera de línea en el hogar.
Google lanza el modelo de IA ligero de salida abierta de próxima generación de próxima generación
Gemma 3, liberado Esta semana, aporta nuevas capacidades al ecosistema de IA local con su gama de tamaños de modelo de parámetros 1B a 27B. El modelo admite multimodalidad, 128k de ventanas de contexto de token y comprende más de 140 idiomas, marcando un avance significativo en la IA desplegable localmente.
Sin embargo, ejecutar el modelo de parámetros de 27b más grande con un contexto completo de 128k requiere recursos informáticos sustanciales, lo que puede superar las capacidades incluso de hardware de consumo de alta gama con RAM de 128 GB sin encadenado múltiples computadoras juntas.
Para administrar esto, Varias herramientas están disponibles para ayudar a los usuarios que buscan ejecutar modelos AI localmente. Llama.cpp proporciona una implementación eficiente para ejecutar modelos en hardware estándar, mientras que LM Studio ofrece una interfaz fácil de usar para aquellos menos cómodos con las operaciones de línea de comandos.
Ollama ha ganado popularidad por sus modelos preenvasados que requieren una configuración mínima, lo que hace que la implementación sea accesible para usuarios no técnicos. Otras opciones notables incluyen faraday.dev para la personalización avanzada y local.ai para una compatibilidad más amplia en múltiples arquitecturas.
Sin embargo, Google también ha lanzado varias versiones más pequeñas de Gemma 3 con ventanas de contexto reducidas, que pueden ejecutarse en todo tipo de dispositivos, desde teléfonos hasta tabletas y computadoras portátiles y escritorios. Los usuarios que desean aprovechar el límite de ventana de contexto de 128,000 tokens de Gemma pueden hacerlo para alrededor de $ 5,000 Uso de la cuantización y los modelos 4B o 12B.
- GEMMA 3 (4B): este modelo se ejecutará cómodamente en un M4 Mac con 128 GB de RAM en un contexto completo de 128k. El modelo 4B es significativamente más pequeño que las variantes más grandes, lo que hace que sea factible ejecutar con toda la ventana de contexto.
- GEMMA 3 (12B): este modelo también debe ejecutarse en un M4 Mac con 128 GB de RAM con el contexto completo de 128k, aunque puede experimentar algunas limitaciones de rendimiento en comparación con los tamaños de contexto más pequeños.
- GEMMA 3 (27B): Este modelo sería un desafío de ejecutar con el contexto completo de 128k, incluso en una Mac M4 de 128 GB. Es posible que necesite cuantización agresiva (Q4) y esperar un rendimiento más lento.
Beneficios de los modelos de IA locales
El cambio hacia la IA alojada localmente proviene de beneficios concretos más allá de las ventajas teóricas. Computer Weekly informó que ejecutar modelos localmente permite el aislamiento de datos completo, eliminando el riesgo de que se transmita información confidencial servicios en la nube.
Este enfoque resulta crucial para las industrias que manejan información confidencial, como la atención médica, las finanzas y los sectores legales, donde las regulaciones de privacidad de datos exigen un control estricto sobre el procesamiento de la información. Sin embargo, también se aplica a los usuarios cotidianos marcados por violaciones de datos y abusos de poder como el escándalo de Facebook de Cambridge Analytica.
Los modelos locales también eliminan los problemas de latencia inherentes a los servicios en la nube. Eliminar la necesidad de que los datos viajen a través de las redes resulta en tiempos de respuesta significativamente más rápidos, lo que es fundamental para las aplicaciones que requieren en tiempo real interacción. Para los usuarios en ubicaciones o áreas remotas con conectividad a Internet poco confiable, los modelos alojados localmente proporcionan un acceso consistente independientemente del estado de conexión.
Los servicios de IA basados en la nube generalmente se cobran en función de suscripciones o métricas de uso como tokens procesados o tiempo de cálculo. Valueminer señala que si bien los costos de configuración iniciales para la infraestructura local pueden ser más altos, los ahorros a largo plazo se hacen evidentes a medida que las escalas de uso, particularmente para datos intensivos en los datos aplicaciones. Esta ventaja económica se vuelve más pronunciada a medida que la eficiencia del modelo mejora y los requisitos de hardware disminuyen.
Además, cuando los usuarios interactúan con los servicios de IA en la nube, sus consultas y respuestas se convierten en parte de conjuntos de datos masivos que se utilizan para una futura capacitación en modelos. Esto crea un ciclo de retroalimentación donde los datos del usuario alimentan continuamente las mejoras del sistema sin consentimiento explícito para cada uso. Las vulnerabilidades de seguridad en sistemas centralizados presentan riesgos adicionales, como EMB Global reflejoscon el potencial de violaciones que afectan a millones de usuarios simultáneamente.
¿Qué puedes correr en casa?
Mientras que las versiones más grandes de modelos como Gemma 3 (27B) requieren recursos informáticos sustanciales, las variantes más pequeñas proporcionan capacidades impresionantes en el hardware del consumidor.
La versión de parámetro 4B de Gemma 3 se ejecuta de manera efectiva en sistemas con 24 GB de RAM, mientras que la versión 12B requiere aproximadamente 48 GB para un rendimiento óptimo con longitudes de contexto razonables. Estos requisitos continúan disminuyendo a medida que mejoran las técnicas de cuantización, lo que hace que la IA poderosa sea más accesible en el hardware de consumo estándar.
Curiosamente, Apple tiene una verdadera ventaja competitiva en el mercado de IA en el hogar debido a su memoria unificada en las Mac de la Serie M. A diferencia de las PC con GPU dedicadas, la RAM en MacS se comparte en todo el sistema, lo que significa que se pueden usar modelos que requieren altos niveles de memoria. Incluso las NVIDIA TOP y las GPU AMD están limitadas a alrededor de 32 GB de VRAM. Sin embargo, las últimas Macs de Apple pueden manejar hasta 256 GB de memoria unificada, que se puede usar para la inferencia de IA, a diferencia de la RAM de PC.
La implementación de AI local ofrece beneficios de control adicionales a través de opciones de personalización que no están disponibles con los servicios en la nube. Los modelos se pueden ajustar en datos específicos del dominio, creando versiones especializadas optimizadas para casos de uso particulares sin compartir externos de información patentada. Este enfoque permite procesar datos altamente confidenciales como registros financieros, información de salud u otra información confidencial que de otro modo presentaría riesgos si se procesaría a través de servicios de terceros.
El movimiento hacia la IA local representa un cambio fundamental en cómo las tecnologías de IA se integran en los flujos de trabajo existentes. En lugar de adaptar procesos para acomodar las limitaciones de servicio en la nube, los usuarios modifican los modelos para adaptarse a requisitos específicos mientras mantienen un control completo sobre los datos y el procesamiento.
Esta democratización de la capacidad de IA continúa acelerando a medida que los tamaños del modelo disminuyen y aumenta la eficiencia, lo que coloca herramientas cada vez más potentes directamente en las manos de los usuarios sin una guardia centralizada.
Personalmente, estoy sometiendo a un proyecto para establecer una IA de inicio con acceso a información familiar confidencial y datos de inicio inteligente para crear un jarvis de la vida real eliminada por completo de la influencia externa. Realmente creo que aquellos que no tienen su propia orquestación de IA en el hogar están condenadas a repetir los errores que cometimos al dar todos nuestros datos a las compañías de redes sociales a principios de la década de 2000.
Aprenda de la historia para que no lo repita.