iPhone apuesta por la imagen mientras que Android por la voz

Por su parte, Google apuesta fuerte con Gemini Live, que permite conversaciones libres, manos libres y contextuales. De acuerdo con Rohan Shah, gerente de producto senior de Google esta apuesta va por el uso de la herramienta, pero sin tener el teléfono en las manos todo el tiempo.

“Gemini Live es la forma más natural de tener conversaciones fluidas, ya sea para pedir consejos, hacer brainstorming, o simplemente tener un acompañante digital”, señaló Shah en una mesa redonda con medios internacionales.

Además, Gemini Live permite integrar imágenes, archivos, incluso la cámara o pantalla del celular en la conversación, lo que amplía las capacidades de interacción.

Google también presentó su función Audio Overview, que convierte documentos, presentaciones o reportes en resúmenes estilo podcast, creando conversaciones entre dos IA que permiten consumir información compleja mientras el usuario hace otras actividades.

“Es una forma mágica de ahorrar tiempo y transformar contenidos densos en algo atractivo y digerible”, explicó Shah.

¿Por qué esta apuesta distinta?

La elección de cada empresa está marcada por la infraestructura: mientras el procesamiento de imágenes requiere hardware local robusto, lo que Apple domina con su integración vertical de hardware y software, la voz depende de latencia ultrabaja, redes de datos y modelos de lenguaje avanzados, donde Google tiene una clara ventaja por su infraestructura en la nube.

Un reporte de la consultora Mckinsey, titulado Making smartphones brilliant: Ten Trends, señala que la diferencia en enfoques responde al uso diario de los dispositivos inteligentes en el corto plazo, refiriéndose a los desafíos de la batería y conectividad que pueden tener.

“El uso de redes de telecomunicaciones, pero también lo que hacen los usuarios en el día a día hará que los usuarios elijan entre una opción u otra en el uso de herramientas de IA”, precisa el informe.

Aunque hoy las estrategias parecen opuestas, el consenso es que la IA en dispositivos terminará combinando imagen, voz y texto.

Apple ha dicho que su ecosistema busca “durar muchos años, con múltiples actualizaciones de iOS y preparado para crecer con el usuario”, lo que deja claro que Apple Intelligence se expandirá.

En Google, en tanto, el foco está en “desbloquear la creatividad humana”, ofreciendo generación de imágenes, videos e incluso libros personalizados para niños, mostrando que no se limitan solo a la voz. La verdadera carrera, al final, no será por una sola interfaz, sino por integrar todas de manera fluida y segura.

Source link